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近年 来 ，Python 语言 成 为 了 广 受 欢迎 的 编程 语言 ， 
表现 。scikit-learn 是 一 个 用 Python 语言 编写 的 机 器 
机 器 学 习 算 法 ， 是 一 个 不 可 多 得 的 好 工具 。 


本 书 通过 14 章 内 容 , 详细 地 介绍 了 一 系列 机 器 学 习 模型 和 scikit-learn 












































































































































机 、 人 工 神经 网 络 、K- 均 值 算 法 、 主 成 分 分 析 等 重要 话题 。 











书 从 机 器 学 习 的 基础 理论 讲 起 ， 涵 盖 了 简单 线性 回归 、K- 近 邻 算 法 、 特 征 提 取 、 多 元 线性 
回归 、 逻 得 回归、 朴素 贝 叶 斯 、 非 线性 分 类 、 决 策 树 回 归 、 随 机 森林 、 感 知 机 、 支 持 向 量 




















而 它 在 机 器 学 习 领 域 也 有 着 卓越 的 
学 习 算法 库 ， 它 可 以 实现 一 系列 常用 的 


























的 使 用 技巧 。 本 











本 书 适合 机 器 学 习 领 域 的 工程 师 学 习 , 也 适合 想 要 了 解 scikit-learn 的 数据 科学 家 阅读 。 











通过 阅读 本 书 ， 读 者 将 有 效 提升 自己 在 机 器 学 习 模 型 的 构建 和 评估 方面 的 能 
效 地 解决 机 器 学 习 难 题 。 
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学 习 问 题 ， 包 括 自 动 语音 识别 、 文 档 分 类 、 目 标识 别 以 及 语义 切 分 。 他 毕业 于 
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近 些 年 来 ， 机 器 学 习 已 经 成 为 大 家 热衷 的 话题 。 在 机 器 学 习 领 域 ， 各 式 各 样 的 应 用 层 
出 不 穷 。 其 中 的 一 些 应 用 例如 垃圾 邮件 过 滤器 〉 已 经 被 广泛 使 用 ， 却 反而 因为 太 成 功 而 
变 得 平淡 无 奇 。 很 多 其 他 的 应 用 直到 近 些 年 才 纷 纷 出 现 ， 它 们 无 一 不 在 昭示 着 机 器 学 习 带 
来 的 无 限 可 能 。 

在 本 书 中 , 我 们 将 分 析 一 些 机 器 学 习 模型 和 学 习 算法 , 讨论 一 些 常用 的 机 器 学 习 任 务 ， 
同时 也 会 学 习 如 何 衡 量 机 器 学 习 系 统 的 性 能 。 我 们 将 使 用 一 个 用 Python 编程 语言 编写 的 类 
JÆ scikit-learn， 它 包含 了 最 新 机 器 学 习 算 法 的 实现 ， 其 API 也 很 直观 通用 。 


本 书 涵 盖 内 容 































































































































































































第 1 章 ， 机 器 学 习 基 础 。 本 章 给 出 了 机 器 学 习 的 定义 : 机 器 学 习 是 对 如 何 通 过 从 经 验 
中 学 习 来 改善 工作 性 能 的 研究 和 设计 。 该 定义 提纲 玫 领 地 引出 了 后 续 的 章节 ， 在 后 续 的 每 
个 章节 中 ， 我 们 都 将 分 析 一 种 机 器 学 习 模型 ， 将 其 运用 于 现实 工作 中 ， 并 衡量 其 性 能 。 

第 2 章 ， 简 单线 性 回归 。 本 章 讨 论 了 将 单个 特征 同 连续 响应 变量 联系 起 来 的 模型 。 我 
们 将 学 习 代 价 函 数 ， 以 及 使 用 范式 函数 优化 模型 的 相关 知识 。 
第 3 章 ， 用 -近邻 算法 分 类 和 回归 。 本 章 介 绍 了 一 个 用 于 分 类 和 回归 任务 的 简单 的 非 
线性 模型 。 
第 4 章 ， 特 征 提 取 。 本 章 介 绍 了 将 文本 、 图 片 以 及 分 类 变量 表示 为 机 器 学 习 模 型 可 用 
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第 5 章 , 从 简单 线 怕 


第 6 章 ， 从 线 4 
了 一 个 用 于 二 元 分 类 任务 的 模型 。 
第 7 He, AR 
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和 判别 模型 进行 了 对 比 。 


单 模型 。 
9 章 
是 套 





们 分 别 


第 8 章 


， 非 线性 分 类 和 决策 树 








回归 到 多 元 线性 加 
元 线性 回归 模型 ， 它 能 在 多 个 特征 上 对 连续 响 
E 回 归 到 风 辑 回归 。 本 草 将 多 元 线性 回 


叶 斯 。 本 章 讨 论 了 贝 叶 斯 定理 




















和 朴素 贝 叶 斯 分 类 器 ， 同 时 对 生成 模型 





归 。 本 章 讨论 了 简单 线性 回归 模型 的 扩展 一 一 多 
应 变量 进行 回归 。 
归 模 型 做 了 进一步 推广 ， 并 介 























上 回归。 本章 介 绍 了 决策 树 这 种 用 于 分 类 和 回归 任务 的 简 

















集成 方法 : 从 决策 树 到 随机 森林 。 本 章 讨 论 了 3 种 用 于 合并 模型 的 方法 ， 它 






































第 11 草 ， 从 感知 机 到 支持 向 量 机 。 本 章 讨论 了 一 种 可 























于 分 类 和 








第 12 章 , 从 感知 机 到 人 工 * 








袋 法 (bagging)、 推 进 法 〈boosting) 和 堆 闭 法 (stacking). 

















第 10 章 ， 感 知 机 。 本 章 内 容 介绍 了 一 种 用 于 二 元 分 类 的 简单 在 线 模型 。 





























用 于 分 类 和 回归 的 强大 的 判别 模 





型 一 一 文 持 向 量 机 ， 同 时 还 介绍 了 一 种 能 有 效 将 特性 投影 到 高 维度 空间 的 技巧 。 














加 归 任 务 的 强大 的 非 线性 模型 。 





第 13 章 ，K- 
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方法 。 


Dn 14 a, 使 

















准备 工作 


运行 本 书 
Python 包 安 装 工具 。 书 中 的 例子 预 

















均值 算法 。 本 章 讨论 了 一 和 

















的 例子 需要 Python 版 本 2.7 或 者 3.3， 以 及 pip 一 PyPA 工作 组 推荐 使 用 的 


申 经 网 络 .本 章 介绍 了 一 种 建立 在 人 工 神 经 元 图 结构 基础 上 ， 





在 无 标记 数据 中 发 现 结构 的 算法 。 
] 主 成 分 分 析 降 维 。 本 章 讨论 了 一 种 用 于 降低 数据 维度 以 缓和 维度 灾难 的 







































































期 在 Jupyter notebook 环境 




















或 者 IPython 解释 器 环境 中 





运行 。 第 1 童 详细 说 明了 如 何在 Ubuntu. MacOS 和 Windows 环境 下 安装 scikit-learn 0.18.1 


版 本 类 库 及 其 依赖 项 目 和 也 











目标 读者 





I 其 他 类 库 。 








本 书 的 目标 读者 是 希望 了 解 机 器 学 习 算 法 是 如 何 运 行 ， 想 培养 机 器 学 习 使 用 直觉 的 软 





aE 


件 工 程 师 。 本 书 的 目标 读者 也 包含 希望 了 解 scikit-learn 类 库 API 的 数据 科学 家 。 读 者 不 需 
要 熟悉 机 器 学 习 基础 和 Python 编程 语言 ， 但 具备 相关 基础 对 阅读 本 书 很 有 帮助 。 






































排版 约定 


在 本 书 中 ， 你 会 发 现 一 些 不 同 的 文本 样式 ， 用 以 区 别 不 同 种 类 的 信息 。 下 面 对 一 些 样 
式 及 其 意义 举例 进行 说 明 。 
代码 片段 、 数 据 库 表 名 、 目 录 名 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、URL、 用 户 输 入 、 
以 及 推 特 用 户 名 会 如 下 印刷 :“ 由 于 scikit-learn 不 是 一 个 有 效 的 Python 包 名 称 ， 该 类 库 被 
命名 为 sklearn”. 














































































































# In[1]: 
import sklearn 


sklearn. version 


# Out[1]: 
WO LBs," 


新 术语 和 重要 语句 会 加 粗 印 刷 。 


I@ 这 个 图 标 表 示警 告 或 需要 特别 注意 的 内 容 。 | 


| 这 个 图 标 表 示 提 示 或 者 技巧 。 | 


资源 与 支持 

















本 书 由 异步 社区 出 品 ， 社 区 (https://www.epubit.com/) 为 您 提供 相关 资源 和 后 续 服 务 。 














配套 资源 


本 书 提供 配套 源 代码 ， 要 获得 该 配套 资源 ， 请 在 














跳 转 到 下 载 界面 ， 按 提示 进行 操作 即 可 。 注 意 : Rill 
六 提示 ， 要 求 输入 提取 码 进 行 验证 。 
如 果 您 是 教师 ， 希 望 获得 教学 配套 资源 ， 请 在 社 





编辑 。 


提交 勘误 






































异步 社区 本 书页 面 中 单 击 EEEE 

















购书 读者 的 权益 ， 该 操作 会 给 出 相 











作者 和 编辑 尽 最 大 努力 来 确保 书 中 























内 容 的 准确 性 ， 但 难免 会 存在 琉 漏 。 




















欢迎 





您 将 发 现 的 问题 反馈 给 我 们 ， 帮 助 我 们 提 





升 图 书 的 质量 。 


当 您 发 现 错误 时 , 请 登录 异步 社区 , {x 











PERR, 进入 本 书页 面 , 单 避 





提交 勘误 ”， 

















输入 勘误 信息 ， 单 击 “ 提 交 ” 














书 的 作者 和 编辑 会 对 您 提交 




















核 ， 确 认 并 接受 后 ， 您 将 获 赠 异步 社区 的 100 积分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 书 











或 奖品 。 


的 勘误 


按钮 即 可 。 本 














进行 审 





区 本 书页 面 中 直接 联系 本 书 的 责任 














与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn. 

如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标题 中 注 明 本 书 书 
名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 

如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 以 
发 邮件 给 我 们 ;有意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 提 交 投 稿 (直接 访问 
www.epubit.com/selfpublish/submission 即 可 )。 

如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 ， 也 可 
以 发 邮件 给 我 们 。 

如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 ， 包 括 对 图 书 全 并 
或 部 分 内 容 的 非 授权 传播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 这 一 举动 是 
对 作者 权益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 


关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书社 区 ， 致力 于 出 版 精品 IT 技术 图 书 和 
相关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社 区 创办 于 2015 年 8 月 ,提供 大 量 精品 
IT 技术 图 书 和 电子 书 ， 以 及 高 品质 技术 文 草 和 视频 课程 。 更 多 详情 请 访问 异步 社区 官网 
https://www.epubit.com. 

“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 IT 专业 图 书 的 品牌 ， 依 托 于 人 民 
邮电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 , 相关 图 书 在 封面 上 印 有 异步 
书 的 LOGO。 异 步 图 书 的 出 版 领域 包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 
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在 本 章 中 ， 我 们 将 
练 数据 、 测 试 数据 和 验 订 
E> 并 安装 后 续 a! 


定义 机 器 学 习 








加 顾 机 器 学 习 中 的 基 而 



























































般 人 工 智 能 的 机 器 (比如 阿 瑟 。 克 拉克 笔下 
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吏 用 这 些 机 器 学 习 程 序 去 寻找 自己 可 




















第 1 章 


机 器 学 习 基 础 





长 久 以 来 ， 我 们 的 想象 力 一 直 被 那些 能 够 学 习 和 模仿 人 类 智 意 





时 概念， 比较 监 督学 习 和 无 监督 学 习 ， 讨 论 训 
并 了 解 机 器 学 习 应 用 。 最 后 ， 





我 们 将 介绍 scikit-learn 








的 机 器 所 吸引 。 尽 管 共 
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的 HAL ASCH oe © Bal pE 
的 软件 正在 变 得 越 来 越 普遍 。 我 们 
找到 自己 真正 想 在 网 上 购买 的 鞋子 。 
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动 设 置 温 度 。 机 器 学 
































习 程 序 可 以 比 人 类 更 好 地 破译 书写 凌乱 的 
发 新 药 到 估计 一 个 头条 新 闻 的 页 面 访问 量 ， 机 器 学 习 软 件 正在 成 为 












































地址， 并 更 加 警觉 地 防 














占 了 许多 长 久 以 来 一 直 被 认为 











有 人 类 能 涉及 











计 克 大 学 篮球 队 输 给 了 3 





上 卡 大 学 篮球 队 的 体育 专栏 报道 。 

















LEAR IVE. AME 
午 多 行业 的 核心 部 分 。 
的 领域 ， 例 如 撰写 一 篇 




















机 器 学 习 是 对 软件 工作 





F 的 设计 和 学 习 ， 它 使 用 过 去 的 经 验 去 指 























究 。 机 器 学 习 的 基 而 
8 未 知 规则 。 机 器 学 习 的 典型 例子 是 垃圾 
g 件 或 非 垃圾 邮件 的 
说 过 机 器 学 习 是 “名 
到 20 世纪 60 ERZA, BEE ARI 
H, AE ee BE ANH BG SH reve FS eh SP SE BZA SR PARRA te SU a Pe Te ER, 



























































电子 邮件 ， 垃 圾 邮件 过 滤器 可 以 分 类 新 消 
予 计算 机 学 习 的 能 力 而 无 须 显 式 地 编程 的 研 
于 发 了 多 个 下 棋 程 序 。 



































8 件 过 滤 。 
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导 未 来 的 决策 。 机 器 学 习 
者 从 一 种 未 知 规则 的 应 用 
通过 观察 已 经 被 标记 为 垃圾 
。 研究 人 工 智能 的 先锋 科学 
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上 目标 是 归纳 ， 或 
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2 第 1 章 机 器 学 习 基础 

而 是 通过 几 千 次 比赛 的 经 验 ， 程 序 学习 了 复杂 的 行为 以 此 打败 了 许多 人 类 对 手 。 

计算 机 科学 家 汤姆 。 米 切 尔 对 机 器 学 习 给 出 了 一 个 更 加 正式 的 定义 :“ 如 果 一 个 程序 的 
性 能 在 “T， 中 体现 ， 通 过 “了 P， 来 衡量 ， 并 通过 经 验 “BE， 来 提升 ， 那 么 该 程序 可 以 被 视 为 
针对 一 些 任务 类 型 “T， 和 性 能 衡量 P MAR “EE” 中 进行 学 习 ”。 例 如 ， 假 设 你 有 一 个 图 
片 集合 ， 每 一 张 图 片 描绘 了 一 只 狗 或 一 只 猫 。 任 务 是 将 图 片 分 为 狗 图 片 类 和 猫 图 片 类 ， 而 程 
这 可 以 通过 观察 已 经 被 分 类 好 的 图 片 来 学 习 执 行 这 个 任务 ， 同 时 它 可 以 通过 计算 分 类 图 片 的 
正确 比例 来 提升 性 能 。 

我 们 将 使 用 米 切 尔 关于 机 器 学 习 的 定义 来 组 织 本 章 内 容 。 首 先 ， 我 们 将 讨论 经 验 的 类 
型 ,包括 监督 学 习 和 无 监督 学 习 。 接 着 ， 我 们 将 讨论 可 以 用 机 器 学 习 系统 解决 的 常见 任务 。 
最 后 ， 我 们 将 讨论 能 够 用 于 衡量 机 器 学 习 系统 性 能 的 标准 。 


1.2 ”从 经 验 中 学 习 




















































































































































































































机 器 学 习 系 统 经 常 被 描述 为 在 人 类 监督 或 无 监督 之 下 从 经 验 中 学 习 。 在 监督 学 习 问题 
中 ， 一 个 程序 会 通过 标记 的 输入 和 输出 进行 学 习 ， 并 从 一 个 输入 预测 一 个 输出 。 也 就 是 说 ， 
程序 从 “正确 答案 ”的 例子 中 学 习 。 在 无 监督 学 习 中 ， 一 个 程序 不 会 从 标记 数据 中 学 习 。 
相反 ， 它 尝试 在 数据 中 发 现 模式 。 例 如 ， 假 设 你 已 经 收集 了 描述 人 身高 体重 的 数据 。 一 个 
无 监督 学 习 的 例子 是 将 数据 划分 到 不 同 的 组 中 。 一 个 程序 可 能 会 产 出 对 应 到 男性 和 女性 ， 
或 者 儿童 和 成 人 的 组 。 现 在 假设 数据 也 标记 了 性 别 。 一 个 监督 学 习 的 例子 是 归纳 出 一 个 规 
则 ， 基 于 一 个 人 的 身高 和 体重 来 预测 一 个 人 是 男性 还 是 女性 。 我 们 将 在 后 面 的 章节 中 讨论 
监督 学 习 和 无 监督 学 习 的 算法 和 例子 。 

监督 学 习 和 无 监督 学 习 可 以 被 认为 是 一 个 范围 的 两 端 。 一 些 类 型 的 问题 ， 被 称 为 半 监 
督学 习 问 题 ， 这 些 问题 同时 使 用 监督 学 习 的 数据 和 无 监督 学 习 的 数据 ， 位 于 监督 学 习 和 无 
监督 学 习 之 间 。 强 化 学 习 靠近 监督 学 习 一 端 。 和 无 监督 学 习 不 同 ， 强 化 学 习 程序 不 会 从 标 
记 的 输出 对 中 进行 学 习 。 相 反 ， 它 从 决策 中 接收 反馈 ， 但 是 错误 并 不 会 显 式 地 被 更 正 。 例 
如 ， 一 个 学 习 去 玩 像 超级 玛丽 兄弟 这 样 的 横向 卷轴 游戏 的 强化 学 习 程 序 ， 当 完成 一 个 关卡 
或 者 达到 一 个 特定 分 数 时 ， 可 能 会 接收 到 一 个 奖励 ， 而 当 失去 一 次 生命 时 会 受到 惩罚 。 然 
而 ， 这 样 的 监督 反馈 并 不 会 附带 一 个 特定 的 决策 去 指挥 角色 跑 动 ， 躲 开 栗子 怪 ， 或 者 捡 起 
一 茶 火 焰 花 。 我 们 将 主要 关注 监督 学 习 和 无 监督 学 习 ， 因 为 这 两 个 类 别 包含 了 最 常见 的 机 
器 学 习 问 题 。 在 下 一 节 中 ， 我 们 将 更 细致 地 审阅 监督 学 习 和 无 监督 学 习 。 

一 个 监督 学 习 程序 从 标记 输出 的 例子 中 进行 学 习 , 这 些 输出 例子 应 该 由 对 应 的 输入 
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上 有 很 多 名 字 ， 在 机 器 学 习 
会 使 用 自己 的 术语 。 在 本 书 中 ， 我 们 将 把 输出 称 为 响应 变量 。 














汇集 了 一 
响应 变量 的 其 他 名 字 包 


1.3 机 器 学 习 任务 3 
些 学 科 ， 许 多 学 科 

















括 [74 依赖 变量 ” [2 回 





























归 变量 








» 66 标 准 as it 




















变量 93? 66 实验 变量 ” 














“标签 ” 和 “输出 变 








中 ， 我 们 将 输入 变 
括 [2 预 测 器 9? 66 回 IF 
值 或 离散 值 。 

















组 成 监督 学 习 经 验 的 实例 
为 一 个 测试 集 。 响 应 变量 可 以 被 看 作 是 由 解释 变量 引发 问题 的 
回答 的 集合 中 进行 学 习 





个 针对 不 同 问题 
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器 ”“ 控 制 变 量 ” 
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集合 称 
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而 它 需 要 学 习 去 J 上 
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1.3 ”机 器 学 习 任 务 








一 个 或 多 个 特征 去 预 半 


JS: 


预测 最 可 能 的 分 





两 种 最 常见 的 监督 机 器 学 习 任务 是 分 类 和 回归 。 在 分 类 任务 


一 个 训练 集 。 


o 也 前 


E 99 


FH o 

















” “测定 变量 "“ 应 答 变 量 ”“ 被 解释 变量 ”“ 输 出 
类 似 的 ， 输 入 变量 也 有 很 多 名 字 。 在 本 书 
称 为 特征 ， 它 们 代表 的 现象 称 为 解释 变量 。 解释 变量 的 其 他 名 字 包 











0H“ 暴露 变量 ”。 响 应 变量 和 解释 变量 可 以 是 实数 














个 用 于 衡量 程 











回答 ， 


是 说 ， 监 督学 习 程序 会 














序 性 能 的 实例 集合 称 
监督 学 习 问 题 会 从 一 


被 提供 正确 的 答案 ， 























回答 没 见 过 的 类 似 问 题 。 



































RA 


或 者 标签 。 





| 一 个 或 多 个 响应 
分 


变量 的 离散 值 。 也 就 是 说 ， 
类 的 应 用 包括 预测 一 只 股票 





























或 者 决定 一 篇 著 





从 一 个 或 多 个 特征 预 疯 
品 的 销售 收入 ， 或 者 基 了 





EY eS 
要 监督 学 


D 
Jo 




















一 个 常见 的 无 监督 学 习作 


相 比 相互 之 间 更 加 类 似 的 群 组 中 。 聚 类 经 常用 于 探索 一 个 数据 集 。 例 
论 集合 ， 一 个 聚 类 算法 可 找 出 正 向 评价 和 负 向 评价 。 系 统 不 会 将 聚合 








Fla). | 















































聚 类 的 一 个 常见 应 用 是 如 














属性 ， 销 售 人 员 可 以 决定 应 i 


对 于 一 个 歌曲 集合 ， 





























育 类 算法 可 以 
































同 的 相似 性 衡量 标准 ， 同 样 的 聚 类 算法 可 以 通过 歌 
来 为 歌曲 划分 不 同 的 组 。 

















上 一 个 或 多 个 连续 





EF 务 是 在 数据 集 内 发 现 互相 关联 有 
该 项 任务 称 为 聚 类 或 者 聚 类 分 析 ， 会 基于 一 些 相似 性 衡量 标准 











响应 变量 值 。 回 











的 观测 值 








程序 必须 为 新 观测 值 
的 价格 会 
f 闻 文章 属于 政治 主题 板块 还 是 休闲 娱乐 板块 。 在 回归 问题 中 
归 问 题 的 例子 包括 预测 一 个 新 产 
一 个 职位 的 描述 预测 其 薪水 。 和 分 类 问题 一 样 ， 回 


程序 必须 学 习 去 从 

















上 涨 或 下 跌 ， 


程序 必须 
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归 问 题 也 需 





群 组 ， 称 之 为 聚 类 。 

















把 观 
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各 歌曲 划分 为 不 同 
曲 的 音调 ， 或 者 通 












































测 值 放 入 和 其 他 群 组 
如 ， 对 于 一 个 电影 评 
的 类 标记 为 正 向 或 者 











于 缺乏 监督 ， 系 统 只 能 通过 一 些 衡量 标准 来 判断 聚合 的 观测 值 相互 之 间 很 类 似 。 
E 市 场 中 为 一 个 产品 发 现 客户 群体 。 通 过 了 解 特定 客户 群体 的 共同 
玄 注 重 销售 活动 的 哪个 方面 。 聚 类 也 应 用 于 网 络 广播 
民 据 歌曲 的 特征 ; 


























服务 
的 分 组 。 通 过 使 用 不 
过 歌曲 中 包含 的 乐器 
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4 第 1 章 机 器 学 习 基 础 











降 维 是 男 一 种 常见 的 使 用 无 监督 学 习 完 成 的 任务 。 一 些 问 题 可 能 包含 数 干 或 者 上 百 万 
个 特征 ， 这 会 导致 计算 能 力 的 极 大 消耗 。 另 外 ， 如 果 一 些 特征 涉及 噪声 或 者 和 潜在 的 关系 
无 关 ， 程 序 的 泛 化 能 力 将 会 减弱 。 降 维 是 发 现 对 响应 变量 变化 影响 最 大 的 特征 的 过 程 。 降 
维 还 可 以 用 于 数据 可 视 化 。 通 过 房屋 面积 预测 房屋 价格 这 样 的 回归 问题 的 可 视 化 很 简单 ， 
房屋 的 面积 可 以 作为 图 的 x 轴 ， 价 格 可 以 作为 了 轴 。 当 为 房屋 价格 回归 问题 添加 第 二 个 特 
征 以 后 ， 可 视 化 依然 很 简单 ， 房 屋 的 浴室 数量 可 以 作为 z 轴 。 然 而 ， 对 一 个 包含 上 干 个 特 
征 的 问题 ， 可 视 化 几乎 不 可 能 完成 。 


1.4 训练 数据 、 测 试 数据 和 验证 数据 


























































































































TH 


如 前 面 提 到 的 ， 一 个 训练 集 是 一 个 观测 值 集合 。 这 些 观测 值 组 成 了 算法 用 来 学 习 的 
经 验 。 在 监督 学 习 问 题 中 ， 每 一 个 观测 值 包含 一 个 观测 响应 变量 和 一 个 或 多 个 观测 解释 变 
量 特征 。 测 试 集 是 一 个 类 似 的 观测 值 集合 。 测 试 集 被 用 于 使 用 一 些 衡量 标准 来 评估 模型 性 
能 。 不 把 训练 集中 的 观测 值 包含 在 测试 集中 是 非常 重要 的 。 如 果 测 试 集中 包含 来 自 训 练 集 
中 的 例子 ， 我 们 很 难 评估 算法 是 真 的 从 训练 集中 学 习 到 了 泛 化 能 力 ， 还 是 只 是 简单 地 记 住 
了 训练 例子 。 一 个 能 够 很 好 地 泛 化 的 程序 可 以 有 效 地 执行 一 个 包含 新 数据 的 任务 。 相 反 ， 
一 个 通过 学 习 过 于 复杂 的 模型 记 住 了 训练 数据 的 程序 可 以 准确 地 预测 训练 集中 的 响应 变 
量 ， 但 是 无 法 预测 新 例子 中 的 响应 变量 值 。 对 训练 集 产生 记忆 称 为 过 拟 合 。 一 个 对 观测 值 
产生 记忆 的 程序 会 记 住 训 练 数据 中 保持 一 致 的 关系 和 结构 ， 因 此 并 不 能 很 好 地 完成 任务 。 
平衡 泛 化 能 力 和 记忆 能 力 对 很 多 机 器 学 习 算 法 来 说 是 一 个 常见 问题 。 在 后 面 的 章节 中 我 们 
将 讨论 正则 化 ， 它 可 以 应 用 于 很 多 模型 来 减少 过 拟 合 。 

除了 训练 数据 和 测试 数据 , 我们 经 常 需要 第 三 个 观测 值 集合 , 称 为 验证 集 或 者 保留 
验证 集 常用 来 微调 被 称 为 超 参数 的 变量 ， 超 参数 用 于 控制 算法 如 何 从 训练 数据 中 学 习 。 在 
现实 世界 中 程序 依然 会 在 测试 集 上 评估 ， 以 提供 对 其 性 能 的 估计 。 由 于 程序 已 经 被 微调 过 ， 
可 以 以 某 种 方式 从 训练 数据 中 学 习 以 提 高 在 验证 数据 上 的 得 分 ， 因 此 验证 集 不 应 该 用 来 佑 
计 现 实 世 界 的 性 能 。 在 现实 世界 中 程序 并 不 会 具备 在 验证 数据 上 的 优势 。 
通常 一 个 监督 观测 值 集合 会 被 划分 为 训练 集 、 验 证 集 和 测试 集 。 划 分 的 每 个 部 分 的 数 
量 并 不 会 作 要 求 ， 根 据 可 用 数据 的 数量 划分 的 比例 将 会 有 所 不 同 。 通 常 来 说 ， 训 练 集 占 
50% 一 75%， 测 试 集 占 10% 一 25%， 剩 下 的 则 是 验证 集 。 

一 些 训练 集 可 能 只 包含 几 百 个 观测 值 ， 其 他 有 的 则 可 能 包含 数 百 万 个 。 廉 价 的 存储 设 
备 ， 增 强 的 网 络 连 通 性 ， 以 及 带 有 传感器 智能 手机 的 普及 ， 造 就 了 现代 大 数据 “帝国 ”或 
者 说 包含 数 以 百 万 甚至 数 以 十 亿 计 的 实例 训练 集 。 虽 然 本 书 不 会 处 理 需要 在 几 十 台 力 至 数 






































































































































































































































































































































































































































































































































































































































百 台 计算 机 - 
的 增加 。 然 而 ， 机 器 学 习 算 法 同时 遵循 格言 “无 月 
过 阅读 一 本 错误 百出 、 令 人 困惑 的 大 部 头 教材 来 准备 考试 ， 他 的 考试 成 绩 并 不 会 比 阅读 篇 
而 短小 但 内 容 质量 较 高 的 教材 的 学 生 的 成 绩 好 。 类 似 地 ， 在 现实 
KI 

















专注 于 模型 实验 。 在 

















上 并 行 处 至 















































技巧 可 


儿 部 分 。 模 型 在 除了 一 
Se Lae E 上 训练 和 评估 。 























开发 过 程 中 ， 尤 
a 
部 分 以 外 的 数据 - 

















的 数据 集 ， 许 多 机 器 学 习 算法 预测 角 
数据 入 、 无 用 数据 出 ”。 假如 





1.4 训练 数据 、 测 试 数 据 和 验证 数据 5 























E 力 的 提升 依赖 于 训练 数据 数量 











世界 中 ， 一 个 算法 如 果 在 








DN SH 通 





NAPA 

















岗 并 不 会 比 一 个 在 包含 更 




















一 个 包含 噪声 、 不 相关 或 者 错误 标签 数据 的 集 上 进行 训练 ， 划 
能 代表 问题 的 小 数据 集 上 训练 的 模型 表现 好 。 

许多 监督 训练 数据 集 需 要 通 
型 监督 数据 集 代价 不 菲 。 柱 运 的 是 ，scikit-learn 类 


其 是 当 训练 数据 很 外 








eae 
在 交叉 验 订 




















上 进行 训练 ， 




















计 得 分 均值 会 优 于 单一 的 训练 /测试 划分 。 图 1.1 描绘 了 5- 部分， 或 5- 重 交叉 验证 : 


i 
? 
á 


原始 数据 集 被 划分 为 5 个 数量 相等 的 子 集 , 标记 ASE. ie 
POUR, EER 
被 转换 直到 模型 已 经 在 所 有 


练 ， 在 划分 A 上 测试 。 在 
上 测试 。 接 着 划分 
上 进行 测试 ， 


B 
型 划分 











交叉 验证 迭代 


交叉 验证 迭代 


交叉 验证 迭代 


交叉 验证 迭代 4 


交叉 验证 迭代 5 














图 1.1 


























交叉 验 订 


FE 能 为 模型 




















J 提供 更 准确 





re 

















的 划分 上 进行 训 














E 能 预 估 。 














练 和 测试 。 相 比 在 





始 模型 在 划分 B~E 











He Sb JE 
t He 1A 











过 手动 或 者 半自动 处 理 来 准备 。 在 一 些 领 域 ， 创 建 一 个 大 
库 包 含 了 一 些 数据 集 ， 这 让 开发 者 可 以 
一 种 称 为 交叉 验证 的 实战 
E 过 程 中 ， 训 练 数据 被 分 割 为 
放 在 剩余 的 部 分 上 测试 。 划 分 被 转 
在 现实 世界 中 ， 每 个 划分 上 的 模型 怕 




















上 训 
| 分 A、C、D 和 上 进行 训练 ， 在 划分 














模 














1.5 ”偏差 和 方差 


许多 标 
许多 性 能 标 AN 











设 和 在 训练 数据 


准 被 用 来 衡量 一 个 模 

E 能 衡量 预测 误差 的 量 。 预测 误差 有 两 个 根本 原因 : 
假设 你 有 许多 独一无二 但 是 都 代表 
个 训练 集 上 学 习 ， 对 于 一 个 输入 都 将 产 出 





PL 





Fe Pe fi 






































出 的 不 同 误差 依赖 于 模型 学 习 的 训练 集 。 











了 总 体 的 训练 集 。 








一 个 





具有 高 1 


是 否 能 有 效 地 通过 学 习 去 完成 任务 。 对 于 监督 学 习 问 题 


模型 的 偏差 和 模型 的 方差。 
局 差 的 模型 ， 无 论 是 在 哪 














类 似 的 误差 。 模 型 


册 差 代表 我 们 对 真实 关系 的 假 


























有 高 方差 的 模型 ， 对 一 个 输入 产 

















证 明 的 关系 之 间 的 差别 。 相 反 ， 一 个 
个 共有 高 偏差 的 模型 是 


















































































































































不 灵活 的 ， 但 是 一 个 其 





Fe 

























































































有 高 方差 的 模型 可 能 会 很 灵活 以 至 于 模型 可 能 会 对 训练 集中 的 噪声 进行 建 模 。 也 就 是 说 ， 
一 个 具有 高 方差 的 模型 过 拟 合 训练 数据 ， 而 一 个 具有 高 偏差 的 模型 则 欠 拟 合 训练 数据 。 将 
偏差 和 方差 可 视 化 为 射 向 标 靶 的 飞镖 对 理解 其 含义 很 有 帮助 。 如 图 1.2 所 示 ， 每 一 个 飞镖 
相当 于 一 个 预测 ， 它 通过 一 个 模型 每 次 在 不 同 的 数据 集 上 进行 训练 来 射 向 标 台 。 一 个 具有 
高 偏差 低 方 差 的 模型 射出 的 飞镖 将 紧密 聚集 在 一 起 ， 但 是 却 可 能 远离 靶 心 。 一 个 具有 高 偏 
差 高 方差 的 模型 射出 的 飞镖 将 布 满 整 个 标 靶 ， 飞 镖 远离 靶 心 且 相 互 之 间距 离 很 大 。 一 个 具 
有 低 偏差 高 方差 的 模型 射出 的 飞镖 不 会 聚集 但 是 却 都 很 靠近 靶 心 。 最 后 ， 一 个 具有 低 偏差 
低 方 差 的 模型 射出 的 飞镖 将 聚集 在 靶 心 周围 。 

高 偏差 低 偏差 

低 方差 高 方差 
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理想 情况 下 ， 


全 
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一 个 模型 应 该 具有 低 方 差 和 低 人 
这 个 现象 被 称 为 偏差 方差 权衡 。 


在 本 














BB 中， 我 们 将 讨论 模型 的 1 




















无 监督 
以 衡量 在 数据 中 发 现 


大 部 分 性 


似乎 很 明显 ， 但 是 下 面 的 例子 使 用 一 个 性 


的 任务 ， 


考虑 一 个 分 类 任务 ， 一 个 机 器 学 习 系统 观察 肿瘤 并 对 肿瘤 是 亚 
是 一 种 衡量 程序 性 能 的 直 





EH 








率 或 者 预测 正确 





学 习 问 题 没 有 








Ak E 


结构 的 一 些 属 性 ， 


个 误差 指标 能 

















AE 





H 





EA 





只 能 对 一 种 特定 类 型 任务 〈 例 如 分 类 和 回归 ) 计算 。 在 现实 


机 器 学 习 系统 应 该 使 用 能 够 代表 产生 错误 的 代价 的 性 能 指标 来 评估 。 
































例如 聚 


能 衡量 











1.5 ”偏差 和 方差 7 


局 差 ， 但 是 减 小 其 中 一 个 经 常会 增 大 另 一 
扁 差 和 方差 。 














于 衡量 ， 相 反 ， 无 监督 学 习 问 题 的 怕 
类 内 部 和 聚 类 之 间 的 距离 。 








生 能 指标 可 








旨 标 来 描述 该 规则 ， 








而 不 是 只 适用 于 该 任务 。 
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JOR 











量程 序 性 外 








的 实例 的 比例 ， 
能 ， 但 是 它 无 法 区 分 出 ; 








HEME ze BSH 








RF, 
尽管 这 条 规则 看 起 来 
这 条 规则 适用 于 一 般 

















E 做 出 预测 。 
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观 标准 。 


尽管 准确 





























性 被 分 类 为 良性 
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一 出 








中 ， 与 所 有 误差 类 





些 应 





LIAB 
我 们 可 
一 个 肿瘤 分 类 为 恶性 
预测 


将 
性 时 ， 











5 性 肿 净 是 一 BR LEAT 


型 相关 联 

















吴 地 将 6 











以 衡量 每 种 可 外 


时 ， 














EE 的 预测 输出 
预测 





结果 称 为 假 阳 性 。 类 似 地 ， 一 个 假 阴 性 














性 代表 


正确 














ČA 
准确 率 、 





准确 率 使 月 








保持 一 致 。 
精准 率 和 召回 率 。 


























日 性 


的 数量 ，FWN 是 假 











精准 








率 是 被 预测 为 恶 


70 


地 预测 肿瘤 是 良性 。 注 
去 评判 它们 所 代表 的 现象 。 在 这 个 例子 中 ， 
FE 过 程 ! 


公式 1.1 来 计算 ， 在 公 


PERS HB 











的 代价 可 


意 到 阴性 


eb H 


可 能 是 


























性 全 


良性 被 分 类 为 恶 
相同 的 。 然 而 在 这 个 
性 肿瘤 识别 为 恶性 更 严 导 


结果 来 创建 不 同 的 分 类 器 
结果 称 为 真 阳性 。 当 系统 错误 地 将 


的 错误 。 





ma = 
T 
o 











问题 中 ， 没 有 能 分 








E 视 图。 当 系 统 正确 地 


WE 


























Be bt eH FH 
仅仅 作 





和 阳性 























真 和 假 、 阳 和 阴 可 以 用 来 计算 一 些 常 


阴性 的 数量 : 





\ 式 中 TP 是 真 阳 性 的 数量 

















恶性 肿瘤 被 编码 为 阴 怕 











TP+TN 





ACC = 


TP+TN+FP+FN 


























TP 


~ TP + FP 





率 是 系统 识别 出 亚 


性 肿瘤 的 比例 。 











召回 率 通过 
TP 











“TP+ FN 


1 肿瘤 为 
为 二 元 标签 来 
E 或 阳性 者 
常见 的 分 类 性 全 


E s TN 是 真 阴性 


个 良性 肿瘤 分 类 为 
性 ， 一 个 真 阴 
]， 同 时 也 不 会 
PEH, RE 


PN 
ee he, GF 


AN 
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D 
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的 数量 ，FP 


(公式 1.1) 


精准 率 可 以 使 用 公式 1.2 来 计算 : 


(公式 1.2) 


公式 1.3 来 计算 : 


(公式 1.3) 
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在 这 个 例子 中 ， 精 准 率 用 来 衡量 被 预测 为 恶性 上 
































来 衡量 真正 的 恶性 肿瘤 被 发 现 的 比例 。 
精准 率 和 召回 率 的 衡量 方式 可 以 说 明 ， 一 个 
部 分 恶性 肿瘤 。 如 果 测 试 集中 的 大 部 分 肿瘤 都 是 
类 器 也 会 拥有 高 准确 率 。 而 另 一 个 低 准 确 率 高 召回 率 的 
为 它 能 探测 出 更 多 的 恶性 肿瘤 。 


Im. 


1.6 


提取 特征 、 优 化 


以 文 持 大 数组 和 多 维 久 
























































许多 用 于 分 类 器 的 性 能 衡量 指标 可 
包括 对 于 多 标签 分 类 问题 的 ] 
衡量 方式 。 本 书 内 容 也 会 涉及 无 监督 任务 的 性 能 ， 
监督 任务 的 性 能 衡量 。 


























自 2007 年 发 布 以 来 ，scikit-learn 已 经 成 为 颇 受 欢迎 的 机 器 学 习 类 库 之 一 。 
类 库 提 供用 于 机 器 学 习 的 算法 ， 包 括 分 类 、 回 归 、 降 维和 聚 类 。 
馈 参 数 和 评估 模型 的 模块 。 











的 肿瘤 实际 上 也 是 恶性 的 比例 。 
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DES 





高 准确 率 的 分 类 器 实际 上 并 不 能 探测 到 大 














性 的 ， 即 使 是 从 未 探测 出 恶性 肿瘤 的 分 

















ANAK 















































scikit-learn 简介 








itty. FER WH, RA 


























分 类 器 可 能 会 更 适合 这 个 任务 ， 因 








以 被 使 用 。 我 们 将 在 后 面 的 章节 中 讨论 更 多 的 指标 ， 
论 一 些 对 于 回归 任务 的 常用 性 能 
我 们 将 在 本 书后 续 的 聚 类 分 析 中 讨论 无 





scikit-learn 


它 也 提供 用 于 数据 预 处 理 、 


scikit-learn 类 库 基 于 广 受 欢迎 的 Python 类 库 Numpy 和 Scipy 构 建 .Numpy 扩 展 了 Python 











matplotlib 也 经 常 联合 scikit-learn 类 库 一 起 使 用 。 


ob > 


多 scikit-learn 


scikit-learn JÆ ENI 
非常 灵活 。 只 需 修改 几 行 代码 ， 

















舌 许 多 数据 集 ， 这 让 
scikit-learn 类 库 拥 有 BSD 许可 ii 
类 库 的 算法 对 于 非 
































究 领 域 广 受 欢迎 ， 因 























发 者 














1.7 








库 以 其 可 依赖 性 而 闻名 ， 





ro Jt 
安装 








本 书 基于 scikit-learn 











类 

















E, Øl 












































中 大 多 数 的 类 库 都 通过 了 自动 化 测试 。 


scikit-learn 


























库 的 0.18.1 版 本 编号， 使 


为 它 的 API 有 很 好 的 文档 ， 易 于 使 
于 发 者 就 可 以 使 用 scikit-learn 类 库 对 不 同 的 算法 进行 实验 。 
scikit-learn 类 库 包 含 了 一 些 流行 的 机 器 学 习 算 法 的 实现 , 包括 LIBSVM 和 ILIBLINEAR。 其 
也 的 Python XÆ (包括 NLTK)， 都 包含 了 对 scikit-learn 的 封装 。scikit-learn 类 库 同时 也 包 
可 以 专注 于 算法 而 无 须 收集 和 清洗 数据 。 

此 开发 者 可 以 将 其 无 限制 地 月 
巨型 数据 集 非 常 快 且 具有 可 扩 








这 个 版 本 可 以 保 订 


EAS 


E 阵 更 高 效 的 操作 。Scipy 提供 了 用 于 科学 计算 的 模块 。 可 视 化 类 库 




















JE. 








于 商业 应 用 中 。 许 
展 性 。 最 后 ，scikit-learn 


类 





中 的 例子 正 
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确 地 运行 。 如 果 你 之 前 已 经 安装 过 scikit-learn， 可 以 通过 在 一 个 记事 本 或 者 Python 解释 器 
中 执行 代码 1.1 来 获取 版 本 号 : 

代码 1.1 

# In[1]: 

import sklearn 

sklearn. version _ 

# Out[1]: 

08 


安装 包 命 名 为 Sklearn 原 因 是 scikit-learn 并 不 是 一 个 
有 效 的 Python 包 名 。 


























如 果 之 前 没有 安装 过 scikit-learn， 你 可 以 从 一 个 包 管 理 器 安装 ， 或 者 从 源码 构建 。 我 
们 将 在 后 面 的 内 容 中 回顾 针对 Ubuntu 16.04 系统 、Mac OS 系统 和 Windows 10 系统 的 安 
装 过 程 ， 最 新 的 安装 指令 可 以 参考 http://scikit-learn.org/stable/insatall.html。 以 下 的 指令 只 
假定 你 已 经 安装 了 Python 版 本 2.6 或 者 3.3 。 关 于 安装 Python 的 指导 请 参考 
http://www.python.org/download/. 


1.7.1 使 用 pip 安装 


scikit-learn 最 简单 的 安装 方式 是 使 用 pip， 即 PyPA 推荐 的 用 于 安装 Python 包 的 工具 。 
使 用 下 面 指令 来 使 用 pip 安装 scikit-learn: 
$ pip install -U scikit-learn 


如 果 pip 在 你 的 系统 中 不 可 用 ， 后 面 的 几 节 内 容 会 涉及 不 同 平台 的 安装 指导 。 
1.7.2 在 Windows 系统 下 安装 


scikit-learn 类 库 需 要 setuptools， 一 个 支持 对 Python 打包 和 安装 软件 的 第 三 方 包 。 
setuptools 可 以 通过 执行 启动 脚本 https://bootstrap.pypa.io/ez_setup.py 在 Windows 系统 下 

Windows 系统 下 也 有 可 用 的 32-bit 和 64-bit 版 本 的 二 进 制 文档 。 如 果 你 不 能 决定 自己 
应 该 使 用 哪个 版 本 , 那 就 安装 32-bit 版 本 。 两 个 版 本 都 依赖 Numpy 1.3 或 更 新 的 版 本 。32-bit 
版 本 的 Numpy 可 以 从 http://sourceforge.net/projects/numpy/files/Numpy/ F 4%. 64-bit 版 本 可 
以 从 http:/www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn 下 载 。 
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32-bit 版 本 scikit-learn 的 Windows 安装 器 可 以 从 http://sourceforge.net/project/scikit- 
learn/files/scikit-learn0.17.win32-py2.7.exe/download 下 载 。64-bit 版 本 scikit-learn 的 Windows 
安装 器 可 以 从 http:/www.lfd.uci.edu/~gohlke/pythonlibs/ 因 cikit-learn 下 载 。 


1.7.3 在 Ubuntu 16.04 系统 下 安装 




















在 Ubuntu 16.04 系统 中 可 以 使 用 apt 安装 scikit-learn: 
$ sudo apt install python-scikits-learn 


1.7.4 TE Mac OS 系统 下 安装 





在 OSX 系统 中 可 以 使 用 Macports 安装 scikit-learn: 
$ sudo port install py27-sklearn 


1.7.5 ”安装 Anaconda 























Anaconda 是 一 个 免费 的 包含 超过 720 个 Python 开源 数据 科学 包 的 集合 ， 其 中 包含 scikit- 
learn、Numpy、Scipy、pandas 和 matplotlib。Anaconda 履 盖 全 平台 且 易 于 安装 。 请 参考 
https://docs.continuum.io/anaconda/install/ 来 查看 你 的 操作 系统 下 的 安装 指令 。 


1.7.6 ”验证 安装 


为 了 验证 你 的 scikit-learn 类 库 已 经 正确 地 安装 ,打开 一 个 Python 控制 台 , 执行 代码 1.2: 








Ni 





















































代码 1.2 
# In[1]: 
import sklearn 


sklearn. version _ 


# Out[1]: 
E018. 5 1% 

















为 了 运行 scikit-learn 类 库 单元 测试 ， 首 先 需 要 安装 nose Python 包 。 然 后 在 一 个 终端 模 
拟 器 中 执行 下 面 的 命令 : 






































$ nosetest sklearn -exe 





恭喜 你 ! 你 已 经 成 功 安装 了 scikit-learn. 
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1.8 安装 pandas、Pilow、NLTK 和 matplotlib 














pandas 是 一 个 提供 数据 结构 和 分 析 工 具 的 开源 Python 类 库 。pandas 是 一 个 强大 的 类 库 ， 
关于 如 何 使 用 pandas 进行 数据 分 析 的 书籍 并 不 少 。 我 们 将 使 用 pandas 中 一 些 方便 的 工具 来 
导入 数据 和 计算 概括 统计 量 。Pillow 是 Python 类 库 Imaging 的 一 个 分 支 ， 它 提供 了 许多 图 
像 处 理 特性 。NLTK 是 一 个 处 理 人 类 语言 的 类 库 。 和 scikit-learn 一 样 ， 使 用 pip 是 推荐 用 来 
安装 pandas、Pillow、 和 NLTK 类 库 的 方法 。 在 一 个 终端 模拟 器 中 执行 以 下 命令 : 
































































































































$ pip install pandas pillow nltk 





matplotlib 是 一 个 能 轻松 创建 绘图 、 柱 状 图 和 其 他 图 表 的 Python 类 库 。 我 们 将 使 用 它 
来 可 视 化 训练 数据 和 模型 matplotliib 有 一 些 依赖 项 。 和 pandas 一样 ,matplotlib 依赖 于 Numpy 
(我 们 已 经 安装 过 )。 在 Ubuntu 16.04 系统 下 , matplotlib 和 其 依赖 项 可 以 使 用 以 下 命令 安装 : 















































$ sudo apt install python-matplotlib 








用 于 Mac OS 系统 和 Windows 10 系统 下 的 二 进 制 软件 包 可 以 从 hittps://matplotlib.org/ 
downloads.html 下 载 。 





1.9 ”小结 





在 本 章 中 ， 我 们 将 机 器 学 习 定义 为 设计 能 在 一 个 任务 中 从 经 验 中 学 习 并 提高 性 能 的 软 
件 的 过 程 。 我 们 讨论 了 进行 监督 的 范围 。 其 中 一 端 是 监督 学 习 ， 监 督学 习 程 序 从 标记 的 输 
入 和 对 应 的 输出 中 学 习 。 而 无 监督 学 习 则 位 于 另 一 端 ， 无 监督 学 习 软 件 必 须 从 非 标记 输入 
中 发 现 结构 。 半 监督 学 习 会 同时 使 用 标记 和 非 标记 训练 数据 。 

接着 ， 我 们 讨论 机 器 学 习 任务 的 常见 类 型 ， 并 审阅 了 每 种 类 型 的 几 个 例子 。 在 分 类 任务 
中 ， 程 序 从 观测 到 的 解释 变量 预测 离散 的 响应 变量 值 。 在 回归 任务 中 ， 程 序 必须 从 解释 变量 
预测 连续 响应 变量 值 。 无 监督 学 习 包 括 聚 类 〈 观 测 值 会 根据 一 些 相似 性 衡量 标准 被 组 织 到 不 
同 群 组 中 ) 和 降 维 (将 一 个 解释 变量 集合 减少 到 一 个 合成 特征 的 小 型 集合 ， 同 时 尽 可 能 保持 
言 息 )。 我 们 还 审阅 了 偏差 方差 权衡 ， 并 讨论 了 对 于 不 同 机 器 学 习 任务 的 常见 性 能 衡量 方法 。 

在 本 章 内 容 中 ， 我 们 讨论 了 scikit-learn 类 库 的 历史 、 目 标 和 优势 。 最 后 ， 我 们 通过 安 六 
scikit-learn 类 库 以 及 其 他 经 常 一 起 联合 使 用 的 类 库 来 准备 开发 环境 。 在 下 一 章 中 ， 我 们 将 讨 
论 一 个 用 于 回归 任务 的 简单 模型 ， 并 使 用 scikit-learn 类 库 构 建 自己 的 第 一 个 机 器 学 习 模 型 。 






































































































































































































































































































































在 本 章 中 ， 我 们 将 介绍 第 一 个 模型 
量 和 解释 变量 的 某 个 特征 之 间 的 关系 进 
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简单 线性 回归 











简单 线性 回归 。 简 单线 性 加 
行 建 模 。 我 们 将 讨论 如 何 对 模型 











归 围 绕 一 个 响应 变 
进行 拟 合 ， 同 时 也 

















H 











会 解决 一 个 玩具 问题 "。 虽 然 简单 线性 
解 简单 线性 回归 是 理解 许多 其 他 模型 
的 一 般 化 模型 ， 并 将 它们 运用 于 现实 


简单 线性 回归 





归 对 于 现实 
的 关键 。 
世界 的 数据 集 。 


















































2.1 


在 前 面 的 章节 中 ， 我 们 学 到 了 在 监督 学 习 问 题 9 
量 的 观察 值 及 其 对 应 的 响应 变量 


BREAD 
回顾 
单线 性 


EL 








i 
到 的 解释 变量 值 对 应 的 响应 变量 值 。 
量 的 值 。 在 本 章 中 ， 我 们 将 检验 简 
征 之 间 的 关系 进行 建 模 。 
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在 后 面 的 章节 上 


顾 一 下 ， 回 归 
归 ? 它 党 有 









































世界 的 问题 几乎 不 具有 
h， 我 们 将 学 到 简 


FP 用 训练 数据 估计 一 





可 用 性 ,但 是 理 
线性 回归 















































个 模型 的 参数 。 




















成 训练 数据 ， 训 练 好 的 模型 可 








ZREN 





j 于 预测 未 被 观测 








标 
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问题 的 
日 于 对 一 








Fe 


























Ak 


预测 
响应 变量 和 解释 变量 的 特 





个 连续 响应 变 


























假设 你 希望 了 解 披萨 的 价格 。 你 可 能 会 简单 





地 和 查看 荣 单 。 然 





i, A 




















学 习 的 图 书 ， 因 此 我 们 将 基于 能 观测 到 
让 我 们 来 对 披萨 的 尺寸 和 价格 之 间 的 关系 进行 建 模 。 
段 程序 ， 通 过 提供 的 披萨 尺寸 来 预测 
如 何 将 其 泛 化 来 解决 其 他 类 型 的 问题 。 

假设 你 已 经 记录 下 了 已 经 吃 i 
训练 数据 。 







































































的 披萨 的 属性 或 者 说 解释 3 


价格 。 接 着 我 们 将 讨论 简 六 


=} 
里， 














首先 ， 我 们 将 使 用 





























O AE: 玩具 问题 指 一 个 真实 问题 的 过 度 简化 版 本 ， 通 常 








于 对 真人 


问题 的 调研 和 测试 。 

















书 是 一 本 关于 机 器 


来 预测 披萨 的 价格 。 


与 











scikit-learn 编 








线性 回归 如 何 运 行 以 及 


过 的 披萨 的 直径 和 价格 。 表 2.1 中 的 观测 值 组 成 了 我 们 的 
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表 2.1 
训练 实例 直径 《〈 单 位: 英寸) 价格 〈 单 位: 美元 ) 
1 6 7 
2 8 9 
3 10 13 
4 14 17.5 
> 18 18 
我 们 可 以 使 用 matplotlib 作 图 来 将 训练 数据 可 视 化 ， 如 代码 2.1 所 示 : 
代码 2.1 
In[l]: 
import numpy as np 
import matplotlib.pyplot as plt 
"rip" 和 "DLE" 分 别 是 Numpy 库 和 atplotlib 库 的 常用 别名 
在 scikit-learn 中 的 一 个 惯用 法 是 将 特征 向 量 的 矩形 命名 为 X 
大 写字 母 表示 矩阵 ， 小 写字 母 表示 向 量 
X = np.array([[6], [8], 10], 14], [18]]).reshape(-1, 1) 
X 表示 我 们 的 训练 数据 的 特征 ， 即 披萨 的 直径 
y = [7, 9, 13, 17.5, 18] 
y 是 一 个 表示 披萨 价格 的 向 量 
plt.figure() 
plt.title('Pizza price plotted against diameter') 
plt.xlabel('Diameter in inches") 
plt.ylabel('Price in dollars') 
ple splot (%;. Yr Ke" 
plt.axis([{0, 25, 0, 25]) 
plt.grid(True) 
plt.show() 
脚本 中 的 注释 标明 ER NS RB HIRERE, y 是 表示 披萨 价格 的 向 量 。 这 样 做 的 原 
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从 训练 数据 的 图 2.1 中 我 们 可 以 看 





因 将 会 在 下 一 章 中 阐明 。 这 段 脚本 会 生成 图 2.1。 披 萨 的 直径 在 x 角 
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代码 2.2 使 用 了 简单 线性 
简单 线性 回顾 是 如 何 运 行 的 。 
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Bl, EEEIEE 








披萨 的 直径 和 价格 之 间 存 在 正 相关 关系 ， 这 应 该 
F 实 。 随 着 披萨 直径 的 增加 ， 它 的 价格 通常 也 会 上 涨 。 下 面 的 
归来 对 这 个 关系 进行 建 模 。 让 我 们 来 查看 这 段 代码 ， 并 |] 














讨论 
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披萨 价格 直径 散 点 图 
20 上 …- 
ip 
HK 15H- J 
站 
二 
gr 10|… | 
Ss 
5 上 Perec rs 
% 5 10 15 20 
直径 (单位 : 英寸 ) 
图 2.1 
代码 2.2 
# In[2]: 


from sklearn.linear model import LinearRegression 
model = LinearRegression() # 创建 一 个 估计 器 实例 
model.fit (Xx,，y) # 用 训练 数据 拟 合 模型 





test pizza = np.array([[12]]) 





predicted price = model.predict (test Pizza) [0] 
# 预测 一 个 直径 之 前 从 未 见 过 的 披萨 的 价格 








25 


print('A 12" pizza should cost: $%.2f' % predicted price) 


# Out [2]: 
A 12" pizza should cost: $13.68 


简单 线性 模型 假设 响应 变量 和 解释 变量 之 前 存在 线性 关系 ， 它 使 月 









































日 一 个 被 称 为 超 平面 


的 线性 面 来 对 这 种 关系 进行 建 模 。 一 个 超 平面 是 一 个 子 空 间 ， 它 比 组 成 它 的 环绕 空间 小 一 























个 维度 。 在 简单 线性 回归 中 共有 两 个 维度 ， 一 个 维度 表示 响应 变量 ， 另 一 个 维度 表示 解释 
变量 。 因 此 ， 回 归 超 平面 具有 一 个 维度 ， 一 个 一 维 的 超 平面 是 一 条 直线 。 











































































































LinearRegression 类 是 一 个 估计 器 。 估 计 器 基于 观测 到 的 数据 预测 一 个 值 。 在 



































scikit-learn 中 ， 所 有 的 估计 器 都 实现 了 fit 方法 和 predict 方法 。 前 者 用 于 学 习 模 型 的 























参数 ， 后 者 使 用 学 习 到 的 参数 来 预测 一 个 解释 变量 对 应 的 响应 变量 值 。 
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使 












































] scikit-learn 可 
以 非常 简单 地 对 不 同 模型 进行 实验 ， 因 为 所 有 的 估计 器 都 实现 了 fit 和 predict 方法 ， 
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尝试 新 的 模型 只 需要 简单 地 修改 一 行 代码 。LinearRegression 的 fit 方法 学 习 了 公式 
2.1 简单 线性 回归 模型 的 参数 ， 























y=at Bx (公式 2.1) 


在 上 面 的 公式 中 , 是 响应 变量 的 预测 值 ， 在 这 个 例子 里 ， 它 表示 披萨 的 预测 价格 。x 
表示 解释 变量 。 和 截断 项 a 和 系数 8 都 是 可 以 通过 学 习 算 法 学 到 的 模型 参数 。 在 图 2.2 中 ， 
绘制 的 超 平面 对 一 个 披萨 的 价格 和 尺寸 之 间 的 关系 进行 建 模 。 使 用 这 个 模型 ， 我 们 可 以 预 
测 一 个 直径 为 8 英寸 的 披萨 的 价格 应 该 为 7.33 美元 ， 一 个 直径 为 20 英寸 的 披萨 价格 应 该 
为 18.75 美元 。 





























` 



































‘6 基于 直径 的 披萨 价格 回归 线 
20 上 - 
f 15} 
a 
a 
a 10} 
& 
5 H 
% i 10 15 20 25 
直径 (单位: 英寸 ) 
图 2.2 





























利用 训练 数据 学 习 产 生 最 佳 拟 合 模型 的 简单 线性 回归 的 参数 值 称 为 普通 最 小 二 乘 
(Ordinary Lease Squares, OLS) 或 线性 最 小 二 乘 。 在 本 章 中 ， 我 们 将 讨论 一 种 分 析 解 出 模 
型 参数 值 的 方法 。 在 后 面 的 章节 中 ， 我 们 将 学 习 适 用 于 在 大 数据 集合 中 逐渐 通 近 参数 值 的 
方法 ， 但 是 首先 必须 要 定义 模型 拟 合 训练 数据 。 


2.1.1 用 代价 函数 评价 模型 的 拟 合 性 


在 图 2.3 中 我 们 根据 一 些 参数 集合 的 值 绘制 出 几 条 回归 线 。 然 而 我 们 如 何 去 评 估 哪 组 
参数 值 产 生 了 最 佳 拟 合 回归 线 呢 ? 
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代价 函数 ， 也 被 称 为 损失 函数 ， 它 
价格 和 在 训练 数据 集中 观测 到 


简单 线性 回 


美元 ) 


价格 (单位 : 

















们 将 使 有 








作 预 测 误差 或 者 测试 误差 。 在 图 2.4 中 ， 模 型 的 残 差 由 训练 实例 点 和 回归 超 平面 之 问 垂 直 


线 表 示 。 


H 





—, 
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25 T 





披萨 价格 在 直径 上 的 回归 














0 5 10 15 20 25 
直径 单位: 英寸 ) 
图 2.3 



































于 定义 和 衡量 一 个 模型 的 误差 。 由 模型 预测 出 的 











的 披萨 价格 之 间 的 差 值 被 称 为 残 差 或 者 训练 误差 。 和 


4 后， 我 














个 单独 的 测试 数据 集 来 评价 模型 。 在 测试 数据 中 预测 值 和 观测 值 之 间 的 差 值 叫 





美元 ) 


价格 (单位 : 
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直径 (单位 : 英寸 ) 
图 2.4 
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我 们 可 以 通过 最 小 化 残 差 的 和 来 生成 最 佳 披萨 价格 预测 器 。 也 就 是 说 ， 对 于 所 有 训练 
数据 而 言 ， 如 果 模 型 预测 的 响应 变量 都 接近 观测 值 ， 那 么 模型 就 是 拟 合 的 ， 这 种 衡量 模型 
拟 合 的 方法 叫 作 残 差 平方 和 (RSS) 代价 函数 。 在 形式 上 ， 该 函数 通过 对 所 有 训练 数据 的 
残 差 平方 求 和 来 衡量 模型 的 拟 合 性 。RSS 由 下 面 方程 的 公式 2.2 计算 出 ， 其 中 yi 是 观测 值 ， 
Jo) 是 预测 值 : 










































































SS = On SA (公式 22) 
i=l 














我 们 可 以 在 代码 2.2 后 面 加 上 以 下 两 行 代码 来 计算 模型 的 RSS， 如 代码 2.3 所 示 : 
代码 2.3 


print('Residual sum of squares: %.2f' % np.mean((model.predict(X)- y) 
2)) 
Residual sum of squares: 1.75 


现在 我 们 有 了 一 个 代价 函数 ， 可 以 通过 求 这 个 函数 的 极 小 值 来 找 出 模型 的 参数 值 。 
2.1.2 求解 简单 线性 回归 的 OLS 


在 这 一 部 分 中 ， 我 们 将 求解 出 简单 线性 回归 的 OLS。 回 想 一 下 ， 简 单线 性 回归 由 方程 
=c+ 永 给 出 ， 而 我 们 的 目标 是 通过 求 代价 函数 的 极 小 值 来 求解 出 2 和 ww 的 值 。 首 先 我 们 将 
解 出 8 值 , 为 了 达到 目的 , 我 们 将 计算 x 的 方差 以 及 x 和 y 的 协 方差 。 方 差 用 来 衡量 一 组 值 
偏离 程度 ， 如 果 集 合 中 的 所 有 数值 都 相等 ， 那 么 这 组 值 的 方差 为 0。 方 差 小 意味 着 这 组 值 
都 很 接近 总 体 均 值 ， 而 如 果 集 合 中 包含 偏离 均值 很 远 的 数据 则 集合 会 有 很 大 的 方差。 方差 
可 以 使 用 下 面 的 公式 2.3 算出 : 


大 大 





















































































































































































































































Daa- ` 
= = (公式 2.3) 
n- 


XER x 的 均值 ，xi; 是 训练 数据 中 的 第 i 个 x 的 值 ，n 表示 训练 数据 的 总 量 。 我 们 来 计 
算 一 下 训练 数据 中 披萨 直径 的 方差 ， 如 代码 2.4 所 示 : 


var(x) = 




















fd 





























代码 2.4 
# In[2]: 
import numpy as np 


X = np.array([[6], [8], [10], [14], [18]]).reshape(-1, 1) 
x bar = X.mean() 


print (x bar) 
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= 








# 注意 我 们 在 计算 样本 方差 的 时 候 将 样本 的 数量 减 去 1 
# 这 项 技巧 称 为 贝 塞 尔 校正 ， 它 纠正 了 对 样本 中 总 体 方差 估计 的 偏差 





variance = ((X - x_bar)**2).sum() / (X.shape[0] - 1) 


print (variance) 


# Out[2]: 
11.2 
23.2 


Numpy 库 也 提供 了 一 个 叫 作 var 的 方法 来 计算 方差 。 计 算 样本 方差 时 关键 字 参 数 
ddof 可 以 设置 贝 塞 尔 校正 ， 如 代码 2.5 所 示 : 



































代码 2.5 
In[3]: 
print (np.var(X, ddof=1) ) 


Out [3]: 
23.2 





协 方差 用 来 衡量 两 个 变量 如 何 一 同 变 化 。 如 果 变 量 一 起 增加 ,它们 的 协 方 差 为 正 。 如 果 一 

个 变量 增加 时 另 一 个 变量 减少 ,它们 的 协 方 差 为 负 。 如 果 两 个 变量 之 间 没 有 线性 关系 ， 它 们 的 

协 方差 为 0, 它们 是 线性 无 关 的 但 不 一 定 是 相对 独立 的 。 协 方差 可 以 使 用 下 面 的 公式 2.4 计算 : 
> 1, - 2), 一刀 

n—l 

和 方差 一 样 , x; 表 示 训 练 数据 中 第 i 个 x 的 值 , 表示 直径 的 均值 ， 表示 价格 的 均值 

yi 表示 训练 数据 中 第 i 个 y 的 值 ，n 表示 训练 数据 的 总 量 。 我 们 来 计算 一 下 训练 数据 中 披萨 

半径 和 价格 的 协 方 差 ， 如 代码 2.6 所 示 : 
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(公式 2.4) 








COV(X,y) = 
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代码 2.6 

In[4]: 

之 前 我 们 使 用 一 个 列表 表示 y 

在 这 里 我 们 改 为 使 用 一 个 Numpy 多 位 数组 ， 它 包含 了 几 个 计算 样本 均值 的 方法 
y = np.array([7, 9, 13, 17.5, 18]) 

















y_ bar = y.mean() 

# 我 们 将 xX 转 置 ， 因 为 所 有 的 操作 都 必须 是 行 向 量 

covariance = np.multiply((X - x_bar).transpose(), y - y bar).sum()/ 
(X.shape[0] - 1) 

print (covariance) 
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print (np.cov(X.transpose(), y) [0] [1]) 













































































# Out[4]: 
22.65 
22.65 
现在 我 们 已 经 计算 出 了 解释 变量 的 方差 以 及 解释 变量 和 响应 变量 之 间 的 协 方差 ， 可 以 
使 用 公式 2.5 fH BE: 
_ cov(x, y) 
z 2 (公式 2.5) 
/3 
解 出 8 值 以 后 ， 我 们 可 以 使 用 公式 2.6 解 出 a 值 : 
a=y— Bx (公式 2.6) 
在 此 处 了 是 y 的 均值 , x te x 的 均值 。(X,7 了 ) 是 质心 的 坐标 , 是 一 个 模型 必须 经 过 的 点 。 


a =12.9-0.98x11.2 ~1.92 
现在 我 们 已 经 通过 求 代 价 函数 的 极 小 值 解 出 了 模型 的 参数 值 ， 可 以 带 入 披萨 的 直径 预 
测 它们 的 价格 。 例 如 ， 一 个 11 英寸 的 披萨 预计 花费 12.70 美元 ， 一 个 18 英寸 的 披萨 预计 
费 19.54 RIC AEE! 你 已 经 使 用 简单 线性 回归 预测 了 披萨 的 价格 。 







































































2.2 评价 模型 
































我 们 已 经 使 用 了 一 种 学 习 算法 从 训练 数据 中 估计 出 了 模型 的 参数 。 我 们 如 何 评估 模型 
是 否 很 好 地 表达 了 现实 中 解释 变量 和 响应 变量 之 间 的 关系 呢 ? 假 设 你 找到 了 男 一 页 披萨 菜 
单 ， 我 们 将 使 用 这 页 菜单 中 的 条 目 作 为 测试 数据 集 来 衡量 模型 的 表现 。 表 2.2 是 一 个 包含 4 
列 数据 的 表格 ， 其 中 包含 了 由 我 们 的 模型 预测 出 的 披萨 价格 。 





















































































































































表 2.2 
测试 实例 | 披萨 直径 (单位 :英寸 ) 真实 价格 (单位 ， 美 元 ) 预测 价格 (单位 ， 美 元 ) 
1 8 11 9.7759 
2 9 8.5 10.7522 
3 11 15 12.7048 
4 16 18 17.5863 
5 12 11 13.6811 
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我 们 可 以 使 用 一 些 衡量 方法 来 评估 模型 的 预测 能 力 。 在 此 我 们 使 用 一 种 叫 作 R 方 的 方 








法 来 评估 披萨 价格 预测 器 。R 方 ， 也 被 称 为 决定 系数 ， 它 用 来 衡量 数据 和 回归 线 的 贴近 程 























度 。 计算 R 方 的 方法 有 多 种 ， 在 简单 线性 回归 模型 中 ，R 方 等 于 皮尔 森 积 差 相 关系 数 
(PPMCC) 的 平方 ， 也 被 称 为 皮尔 森 相 关系 数 r 的 平方 。 使 用 该 计算 方法 ，R 方 必须 是 0 


和 1 之 间 的 正 数 ， 





例 ， 这 个 比例 不 能 大 于 1 或 者 小 于 0。 其 他 一 些 计 算 方 法 ， 包 括 scikit-learn 库 使 用 的 方法 ， 
不 使 用 皮尔 森 相 关系 数 r 的 平方 公式 计算 R 方 。 如 果 模 型 的 表现 非常 差 ， 由 这 些 计算 方法 
求 出 的 RR 方 可 能 为 负 值 。 了 解 性 能 指标 的 局 限 性 非常 重要 ，R 方 对 于 异常 值 尤 其 敏感 ， 当 









































其 原因 很 直观 : 如 果 及 方 描述 的 是 由 模型 解释 的 响应 变量 中 的 方差 的 比 






































































































































新 的 特征 增加 到 模型 中 时 ， 它 常常 会 出 现 异样 的 增长 。 
我 们 通过 scikit-learn 使 用 的 方法 来 计算 披萨 价格 预测 器 的 R 方 。 首 先 我 们 需要 算出 












































平方 总 和 。 六 是 第 字 个 测试 实例 的 响应 变量 观测 值 ，7 是 响应 变量 的 观测 值 均值 ， 如 公式 
2.7 所 示 。 
2S Gay 
Sa LY, y) (公式 2.7) 


SS =(1-12.7) + (8.5-12.7) +++» + 11-12.7) =56.8 








其 次 我 们 需要 算出 RSS。 回 顾 一 下 此 公式 和 前 面 提 到 的 代价 函数 的 计算 公式 相同 ， 如 


公式 2.8 所 示 : 








SS -> 0 FO) 








(公式 2.8) 
SS = (11— 9.78} + (8.5 —10.75)° +.….+(11—13.68) ~19.20 
最 后 ， 我 们 使 用 公式 2.9 计算 出 及 方 : 
R? zj oe 
ms (公式 2.9) 
R? =1- SEAU 0.66 
56.8 


及 方 计 算得 分 为 0.662, 这 表明 测试 实例 价格 变量 的 方差 很 大 比例 上 是 可 以 被 模型 解释 
的 ,现在 用 scikit-learn 类 库 来 印证 我 们 的 计算 结果 。 如 代码 2.7 所 示 , LinearRegression 








类 的 score 方法 返回 了 模型 的 RR 方 值 。 


代码 2.7 
# In[1]: 


























import numpy as np 


from sklearn.linear model import LinearRegression 


X train = np.array([6, 8, 10, 14, 18]).reshape(-1, 1) 
yotrain = (7, 97 13, rl sr 183] 


X test = np.array([8, 9, 11, 16, 12]).reshape(-1, 1) 
y_test = [11, 8.5, 15, 18, 11] 





model = LinearRegression () 
model.fit(X_ train, y train) 
r squared = model.score(X test, y test) 





print ( squared ) 


# Out[1]: 
0.6620 


2.3 小 结 
































在 本 章 中 ， 我 们 介绍 了 简单 线性 回归 模型 ， 它 对 单个 解释 变量 和 连续 响应 变量 之 间 的 
关系 进行 建 模 。 我 们 通过 一 个 玩具 问题 由 披萨 的 直径 来 预测 其 价格 。 我 们 使 用 残 差 平方 和 
代价 函数 来 评估 模型 的 拟 合 性 ， 并 通过 求 代 价 函 数 的 极 小 值 分 析 解 出 模型 参数 ， 并 在 一 个 
测试 数据 集 上 衡量 模型 的 性 能 。 最 后 我 们 介绍 了 scikit-learn 类 库 的 估计 器 API。 在 下 一 章 
中 ,我们 将 比较 简单 线性 回归 和 男 一 种 简单 普 适 的 模型 一 一 K- 近 邻 算法 (KNN)。 





















































































































































第 3 章 
用 上 -近邻 算 法 分 类 和 回归 





在 本 章 中 ， 我 们 将 介绍 区 -近邻 算法 ( KNN )， 一 种 可 以 用 于 分 类 和 回归 任务 的 算法 。 
KNN 简单 的 外 表 下 隐藏 着 强大 的 功能 和 高 可 用 性 ， 它 广泛 运用 于 现实 世界 的 各 个 领域 , 包 
括 搜索 系统 和 推荐 系统 。 我 们 将 对 比 KNN 和 简单 线性 回归 模型 ， 同 时 通过 几 个 玩具 问题 
来 理解 KNN 模型 。 


3.1 KK- 近邻 模型 
























































KNN 模型 是 一 种 用 于 回归 任务 和 分 类 任务 的 简单 模型 。 它 是 如 此 简单 以 至 于 可 以 
顾名思义 地 猜测 出 其 算法 原理 。 算 法 中 的 “邻居 ”代表 的 是 度量 空间 中 的 训练 实例 。 度 
量 空间 是 定义 了 集合 中 所 有 成 员 之 间距 离 的 特征 空间 。 在 前 一 章 的 披萨 问题 中 ， 由 于 我 
们 定义 了 所 有 披萨 直径 之 间 的 距离 ， 因 此 所 有 的 训练 实例 都 可 以 在 一 个 度量 空间 
示 。 邻 居 用 于 估计 一 个 测试 实例 对 应 的 响应 变量 值 。 超 参 大 用 来 指定 估计 过 程 应 该 包含 
多 少 个 邻居 。 超 参 是 用 来 控制 算法 如 何 学 习 的 参数 ， 它 不 通过 训练 数据 来 估计 ， 一 般 需 
要 人 为 指定 。 最 后 ， 算 法 通过 某 种 距离 函数 ， 从 度量 空间 中 选 出 上 个 距离 测试 实例 最 近 
的 邻居 。 

对 于 分 类 任务 , 训练 集 由 一 组 特征 向 量 的 元 组 和 标签 类 组 成 KNN 算法 可 用 于 二 元 分 
类 、 多 元 分 类 以 及 多 标签 分 类 任务 ， 在 后 面 的 内 容 中 我 们 将 分 别 介 绍 这 些 任务 ， 本 章 内 容 
只 关注 二 元 分 类 任务 。 最 简单 的 KNN 分 类 器 使 用 KNN 标签 模式 对 测试 实例 进行 分 类 ,但 
是 我 们 也 可 以 使 用 其 他 策略 。 超 参 经 常设 置 为 一 个 奇数 来 防止 出 现 平 局 现象 。 在 回归 任 
务 中 ， 每 一 个 特征 向 量 都 会 和 一 个 响应 变量 相关 联 ， 此 处 的 响应 变量 是 一 个 实 值 标量 而 不 
是 一 个 标签 ， 预 测 结果 为 KNN 响应 变量 的 均值 或 者 权重 均值 。 













































































































































































































































































































































































3.2 


KNN 是 一 种 惰性 学 习 模型 。 惰 改 











数据 集 进行 少量 的 处 ] 
在 训练 阶段 不 会 估计 























理 或 者 完全 不 处 理 。 和 简 


惰性 学 习 和 非 参 数 模型 

















MM 
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线性 

















费 计算 资源 ， 但 是 在 模型 预测 阶段 代价 3 





EN DL o 
要 将 特征 乘 以 系数 ， 再 加 上 截断 参数 即 可 。 惰 性 学 习 模 型 几乎 可 以 进行 
要 付出 高 昂 的 代价 。 在 KNN 模型 最 简单 的 实现 中 ， 进 行 预 涡 
所 有 训练 实例 之 间 的 距离 。 











和 我 们 将 要 讨论 的 其 他 模型 不 同 , KNN 是 一 种 非 参数 模型 。 
参数 或 者 系数 去 定义 能 够 对 数据 进行 总 结 的 模型 ， 参 数 的 数量 独立 了 



































模型 生成 的 参数 。1 











性 学 习 有 利 有 次。 
































例如 在 简单 线性 回归 中 ， 预 测 阶 段 





E 学 习 模型 ， 也 被 称 为 基于 实例 的 学 习 模型 ， 会 对 训练 
加 归 这 样 的 勤奋 学 习 模 型 不 同 ，KNN 
训练 勤奋 学 习 模 型 通常 4 
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参数 模型 从 字面 上 看 似乎 是 个 误 称 ， 
型 意味 着 模 型 的 参数 个 数 并 不 固定 ， 它 可 能 随 弟 
练 数据 数量 庞大 ， 同 时 你 对 
E 常 有 用 。 KNN 模型 只 基 F 
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模型 会 


























因为 它 并 不 意味 着 
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参数 模型 





提供 的 灵活 性 


并 不 总 是 可 取 的 ? 











人 











响应 变量 和 解释 变量 之 | 


参数 模型 使 
F 训 练 实例 的 数量 。 非 


即刻 预测 ， 但 是 


上 1 要求 计算 出 一 个 测试 实例 和 

















用 固定 数量 区 








模型 不 需要 参数 。 相 反 ， 非 参数 模 


训练 实例 数量 的 增加 而 增加 。 











BeBe: 互相 接近 的 实例 














司 的 关系 所 知 其 少时 ， 非 参数 
有 类 似 的 响应 变量 值 。 非 
当 训练 数据 很 缺乏 或 者 你 对 响应 变量 和 解释 变量 











之 间 的 关系 有 所 了 解 时 ， 对 响应 变量 和 解释 变量 之 间 关 系 做 假设 的 模型 就 很 有 用 。 


3.3 KNN 模型 分 类 








回顾 一 下 ， 在 第 1 章 








中 定义 了 分 类 任务 的 























目标 是 使 用 一 个 或 多 个 特征 去 预测 一 个 离散 











响应 变量 的 值 。 下 面 我 们 来 看 一 个 玩具 分 类 问题 。 假 设 你 需要 使 用 一 个 人 的 身高 和 体重 去 























了 预测 性 





Ealo | 





am i 啊 应 变量 只 




















中 记录 了 9 个 实例 。 





能 从 两 个 标签 ， 














ey ne 因 








此 这 个 问题 称 为 二 元 分 类 。 表 3.1 














表 3.1 
身 高 k Ẹ 标 签 
158cm 64kg 男性 
170cm 66kg 男性 
183cm 84kg 男性 
191cm 80kg 男性 
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身 ”高 体重 标 签 
155cm 49kg 女性 
163cm 59kg 女性 
180cm 67kg 女性 
158cm 54kg 女性 
178cm 77kg 女性 
和 上 一 章 中 的 简单 线性 回归 问题 不 同 ， 此 处 我 们 使 用 两 个 解释 变量 特征 预测 响应 变量 
值 。KNN 并 不 仅 限 于 两 个 特征 的 情形 ，KNN 算法 可 以 使 用 任意 数量 的 特征 ， 但 是 特征 数 



























































量 多 于 3 时 将 无 法 进行 可 视 化 。 我 们 使 用 matplotlib 类 库 绘 制 散 点 图 将 训练 数据 可 视 化 , 得 
到 图 3.1， 如 代码 3.1 所 示 。 


— 





代码 3.1 

# In[1]: 

import numpy as np 

import matplotlib.pyplot as plt 


X train = np.array([ 
158, 64], 
170, 86], 
183, 84], 
191, 80], 
155 49];7 
T63; -59 ]y 
180, 67], 
158, 54], 
170:,- 67 











y_train = ['male', 'male', 'male', 'male', 'female', 'female', 'female', 
'female', 'female'] 








plt.figure() 

plt.title('Human Heights and Weights by Sex") 
plt.xlabel('Height in cm') 

plt.ylabel('Weight in kg') 


for i, x in enumerate (X train): 
# 使 用 'x' 标记 表示 训练 实例 中 的 男性 ， 使 用 菱形 标记 表示 训练 实例 中 的 女性 


plt.scatter (x[0], x[1], c='k', marker='x' if y train[i] == 'male' else 'D') 























3.3 KNN 模型 分 类 25 


plt.grid(True) 
plt.show() 
分 性 别人 类 身高 体重 图 


Fe) 


体重 (单位: 





155 160 165 170 175 180 185 190 
身高 (单位 : 厘米 ) 


图 3.1 





























从 图 3.1 中 我 们 可 以 看 出 ， 用 XxX 标 记 表 示 男 性 ， 用 全 标记 表示 女性 ， 可 见 男性 的 整体 
趋势 比 女性 更 高 更 重 ， 这 与 我 们 的 日 常 经 验 一 致 。 现 在 有 一 个 已 知 身高 体重 的 人 ， 让 我 们 
使 用 KNN 来 预测 其 性 别 。 假 设 预测 对 象 的 身高 155 EK, WE 70 干 克 。 首 先 我 们 需要 定 
义 距 离 衡 量 方法 ， 在 此 我 们 使 用 欧 儿 里 得 距离 ， 即 在 一 个 欧 儿 里 得 空间 中 两 点 之 间 的 直线 
距离 。 二 维 空 间 中 的 欧 几 里 得 距离 计算 如 公式 3.1 所 示 : 


























































































































d(p,4) = d(q, p) = Yq -p) + (4 - pa) (Ast 3.1) 








BE POR, WR 3.2 所 示 ， 我 们 需要 计算 测试 实例 和 所 有 训练 实例 之 间 的 距离 。 









































表 3.2 

身 高 fe Ẹ 标 OE 和 测试 实例 的 距离 
158cm 64kg 男性 (58-155)? + (64-70)? = 6.71 
170cm 66kg 男性 V70-155) + (66-70) =21.93 
183cm 84kg 男性 (183-155)? + (84-70)? =31.30 
191cm 80kg 男性 VU91-155) +(80—70)° =37.36 
155cm 49kg 女性 J055 -155)? + (49 = 70}? =21.00 
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身 ”高 k Ẹ 标 签 和 测试 实例 的 距离 
163cm 59kg 女性 (63-155) +(59—70) =13.60 
180cm 67kg 女性 Jaso —155)* + (67 - 70} = 25.18 
158cm 54kg 女性 (58-155)? + (54-70)? =16.28 
178cm 77kg 女性 J078 —155)° + (77 -70% = 24.04 
我 们 设置 参数 上 为 3， 并 选取 3 个 距离 最 近 的 训练 实例 。 代码 3.2 计算 出 测试 实例 和 所 



































有 训练 实例 之 间 的 距离 ， 并 找 出 距离 最 近 的 邻居 中 最 普遍 的 性 别 。 

















代码 3.2 

# In[2]: 

x = np.array([[155, 70]]) 

distances = np.sqrt(np.sum((X train - x)**2, axis=1)) 
distances 


# Out[2]: 
array([ 6.70820393, 21.9317122 , 31.30495168, 37.36308338, 21. , 
13.60147051, 25.17935662, 16.2788206 , 15.29705854]) 


# In[3]: 
nearest neighbor indices = distances.argsort() [:3] 
nearest neighbor genders = np.take(y train, nearest neighbor indices) 


nearest neighbor genders 


# Out[3]: 
array(['male', 'female', 'female'], dtype='|S6') 





# In[4]: 
from collections import Counter 


b = Counter (np.take(y train, distances.argsort()[:3])) 
b.most_common (1) [0] [0] 


Out [4]: 


'female' 


图 3.2 中 用 
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UZ bn WMA SEB, FATBOY ba RE Secale A) 3 个 邻居 : 
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分 性 别人 类 身高 体重 图 


Fe) 


体重 (单位: 





155 160 165 170 175 180 185 190 
身高 (单位 : 厘米 ) 
图 3.2 
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根据 图 3.2 可 以 见得 ， 两 个 邻居 为 女性 ，1 个 邻居 为 男性 ， 因 此 预测 测试 实例 为 女性 。 





现在 使 用 scikit-learn 类 库 实 现 一 个 KNN 分 类 器 ， 如 代码 3.3 所 示 。 





代码 3.3 
# In[5]: 
from sklearn.preprocessing import LabelBinarizer 


from sklearn.neighbors import KNeighborsClassifier 


lb = LabelBinarizer () 
y_train_binarized = lb.fit_transform(y train) 


y_train_binarized 


# Out[5]: 


array ([ 








# In[6]: 
K= 
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n= 


clf = KNeighborsClassifier(n_neighbors=k) 

clf.fit(X_train, y_train_binarized. reshape (- 

prediction binarized = clf.predict (np.array ( 
-1)) [0] 

predicted label = lb.inverse transform(predi 

predicted label 





# Out[6]: 
array(['female'], 
dtype='|S6"') 

















1)) 


[155, 70]).reshape(1, 


ction_binarized) 


我 们 的 标签 是 字符 串 ， 因 此 首先 使 用 LabelBinarizer 将 其 转换 为 整数 。 














LabelBinarizer 类 实现 了 转换 器 接口 , 其 中 包含 fit、transform 和 fittransform 
方法 。fit 方法 进行 了 一 些 转换 准备 工作 , 在 此 处 是 将 标签 字符 串 映射 到 整数 , transform 
方法 则 是 将 映射 关系 运用 于 输入 标签 。 fit transform 方法 同时 调用 了 fit 和 



































transform 方法 ， 使 用 起 来 非常 方便 。 转 换 器 只 应 该 在 训练 数据 集 - 












































训练 数据 集 和 测试 数据 集 进 行 拟 合 转换 ， 会 导致 标签 到 整数 映射 不 一 致 的 介 
例子 中 ， 男 性 标签 在 训练 数据 集中 映射 为 1， 在 测试 数据 集中 昌 
试 数据 集 的 信息 泄露 到 模型 中 ， 因 此 应 该 避免 对 全 部 数据 集 做 拟 合 。 
环境 中 ， 因 此 对 测试 数据 集 的 性 能 进行 衡量 可 能 会 比较 乐观 。 我 们 将 在 讲 到 


















































特征 的 部 分 时 更 多 地 讨论 该 问题 。 





























上 进行 拟 合 ， 分 别 对 
青 况 。 在 上 面 的 





射 为 0。 一 些 转换 器 会 将 测 
优势 不 存在 于 生产 





I 从 文本 中 提取 














接着 , 我 们 将 KNeighborsClassifier 类 实例 化 。 尽管 KNN 是 一 种 惰性 学 习 模 型 ， 









































它 依然 实现 了 估计 器 接口 。 正 如 在 简单 线性 回归 模型 中 所 做 的 一 样 ， 我 们 1 

















predict Wik. 最后， 我 们 使 用 已 经 完成 拟 合 的 Labell 








HHT fit 和 


Binarizer 进行 逆向 转换 返回 字 

















符 串 标签 。 如 表 3.3 所 示 ， 现 在 使 用 我 们 的 分 类 器 对 一 个 测试 数据 集 进行 预测 ， 同 时 对 分 








类 器 的 性 能 进行 评估 ， 如 代码 3.4 所 示 。 






































表 3.3 
身 高 wk Ẹ 标 8 

168cm 65kg 男性 
170cm 6lkg 男性 
160cm 52kg 女性 
169cm 67kg 女性 

代码 3.4 

# In[7]: 


x test = np.array([ 
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[168, 65 

[180, 96 

[160, 52 

[169, 67 
] ) 


y_test = ['male', 'male', 'female', 'female'] 





y_test_binarized = lb.transform(y test) 
print ('Binarized labels: %s' % y test _binarized.T[0]) 
predictions binarized = clf.predict (X_test) 


print ('Binarized predictions: %s' % predictions binarized) 
print ('Predicted labels: %s' % lb.inverse transform(predictions binarized) ) 


# Out[7]: 

Binarized labels: [1 1 0 0] 

Binarized predictions: [0 1 0 0] 

Predicted labels: ['female' 'male' 'female' 'female'] 








对 比 测试 数据 集 标 签 拟 合 分 类 器 的 预测 标签 ， 我 们 发 现 其 中 一 个 男性 测试 实 























地 预测 为 女性 。 回 顾 第 1 章 ， 二 元 分 类 任务 中 有 两 种 错误 类 型 : 误 报 和 漏 报 。 有 很 多 

























































































网 被 错误 
性 能 
衡量 方法 可 以 用 于 分 类 器 , 根据 上 基体 应 用 中 出 现 的 错误 类 型 ， 其 中 的 一 些 方法 会 更 加 适用 。 
我 们 将 使 用 儿 种 常见 的 性 能 衡量 方法 来 评估 分 类 器 ， 包 括 准确 率 、 精 准 率 和 召回 率 。 准 古 



































率 是 测试 实例 中 正确 分 类 的 比率 。 如 代码 3.5 所 示 ， 我 们 的 模型 对 4 个 实例 中 的 一 个 分 类 

















彰 误 ， 因 此 准确 率 为 75%。 





代码 3.5 
# In[8]: 
from sklearn.metrics import accuracy score 


print ('Accuracy: %s' % accuracy score(y test _binarized, 


predictions binarized) ) 


# Out[8]: 
Accuracy: 0.75 














精准 率 是 为 正 向 类 测试 实例 被 预测 为 正 向 类 的 比率 。 在 这 个 例子 ! 

















， 正 向 类 为 男 


性 。 


将 男性 和 女性 分 配 为 正 向 类 和 负 向 类 是 随机 的 ， 反 过 来 也 可 以 。 如 代码 3.6 所 示 ， 我 们 的 
分 类 器 预测 一 个 测试 实例 为 正 向 类 ， 这 个 实例 实际 也 是 正 向 类 ， 因 此 分 类 器 的 精准 率 为 

















100%。 


代码 3.6 
# In[9]: 


from sklearn.metrics import precision score 
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NE 


o 


print ('Precision: %s' % precision score (y test binarized, 
predictions_binarized)) 


# Out[9]: 

Precision: 1.0 

召回 率 是 真实 为 正 向 类 的 测试 实例 被 预测 为 正 向 类 的 比率 。 如 代码 3.7 所 示 ， 我 们 的 
分 类 器 将 两 个 真实 为 正 向 类 的 测试 实例 预测 为 正 向 类 ， 因 此 召回 率 为 50% 


















































代码 3.7 

# In[10]: 

from sklearn.metrics import recall score 

print ('Recall: %s' % recall _score(y test _binarized, 
predictions binarized) ) 


# Out [10] : 

Recall: 0.5 

有 时 用 一 个 统计 变量 来 总 结 精 准 率 和 召回 率 很 有 用 ， 这 个 统计 变量 称 为 Fl 得 分 或 者 
F1 度量 。 如 代码 3.8 Pras, Fl 得 分 是 精准 率 和 召回 率 的 调和 平均 值 。 















































代码 3.8 

# In[11]: 

from sklearn.metrics import fl Score 

print ('F1 score: %s' % fl score(y test binarized, 
predictions binarized)) 


# Out[11]: 

F1 score: 0.666666666667 

注意 精准 率 和 召回 率 的 算术 平均 值 是 Fl 得 分 的 上 界 。 当 分 类 器 的 精准 率 和 召回 率 之 间 
的 差异 增加 时 ，F1 得 分 对 分 类 器 的 惩罚 程度 也 会 增加 。 如 代码 3.9 所 示 ， 马 修 斯 相关 系数 
(MCC ) 是 除 Fl 得 分 以 外 ， 另 一 种 对 二 元 分 类 器 性 能 进行 衡量 的 选择 。 一 个 完美 分 类 器 的 
MCC 值 为 1， 随机 进行 预测 的 分 类 器 MCC 的 得 分 为 0， 完全 预测 错误 的 分 类 器 MCC 得 分 
为 -1。 即 使 当 测试 数据 集 的 类 别 比 例 非 常 不 平衡 时 ，MCC 得 分 也 非常 有 用 。 
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代码 3.9 

# In[12]: 

from sklearn.metrics import matthews _corrcoef 
print ('Matthews correlation coefficient: %s' % 


matthews corrcoef(y test _binarized, predictions binarized) ) 
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# Out[12]: 
Matthews correlation coefficient: 0.57735026919 


scikit-learn 类 还 提供 了 一 个 非常 有 用 的 函数 Classification report 用 于 生成 精 
准 率 、 召 回 率 和 Fl 得 分 ， 如 代码 3.10 所 示 。 






































代码 3.10 
# In[13]: 
from sklearn.metrics import classification report 


print (classification report (y test _binarized, predictions binarized, 





target _names=['male'], labels=[1])) 


# Out [13] : 
precision recall fl-score support 
male 1.00 0.50 0.67 2 
avg / total 1.00 0.50 0.67 2 


3.4 KNN 模型 回归 
































现在 我 们 用 KNN 模型 进行 一 个 回归 任务 ， 我 们 需要 使 用 一 个 人 的 身高 和 性 别 来 预测 
其 体重 。 表 3.4 和 表 3.5 分 别 列 出 了 训练 数据 和 测试 数据 。 
























































表 3.4 
身 ”高 性 Fill 体重 
158cm 男性 64kg 
170cm 男性 66kg 
183cm 男性 84kg 
191cm 男性 80kg 
155cm 女性 49kg 
163cm 女性 59kg 
180cm 女性 67kg 
158cm 女性 54kg 
178cm 女性 77kg 

表 3.5 
身 ”高 性 Fill 体重 
168cm 男性 65kg 
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身 ”高 性 Fil 体重 
170cm 男性 6lkg 
160cm 女性 52kg 
169cm 女性 67kg 
我 们 将 对 KNeighborsRegressor 类 进行 实例 化 和 拟 合 ， 并 使 用 它 来 预测 体重 。 在 
这 个 数据 集中 ， 性 别 已 经 编码 为 二 元 值 特 征 。 注 意 该 特征 的 取 值 范围 是 0 一 1， 而 表示 身高 


















































的 特征 取 值 范围 是 155 一 191。 我 们 将 在 下 一 部 分 中 讨论 为 什么 这 样 的 取 值 范围 设 定 会 导致 
问题 ， 以 及 如 何 对 其 改善 。 在 披萨 价格 问题 中 ， 我 们 使 用 确定 系数 来 衡量 模型 的 性 能 。 如 
代码 3.11 所 示 ， 我 们 将 再 次 使 用 它 来 衡量 回归 模型 ， 并 引入 两 个 用 于 衡量 回归 任务 性 能 的 


































































































新 指标 一 一 平均 绝对 误差 (MAE ) 和 均 方 误差 (MSE). 
代码 3.11 
# In[1]: 


import numpy as np 
from sklearn.neighbors import KNeighborsRegressor 
from sklearn.metrics import mean absolute error, mean squared error, 


r2_score 


X train = np.array([ 
158, 
170, 
183, 
191; 
155, 
163, 
180, 
158, 
170, 





Oe Orr tr Oo ee sa) 
~ 








] ) 
y_train = [64, 86, 84, 80, 49, 59, 67, 54, 67] 


xX test = 
[168, 1 
[180, 1 
[160, 0 
[169, 0 

] ) 

y_test = [65, 96, 52, 67] 


3.4 KNN 模 


K= 3 

clf = KNeighborsRegressor (n_neighbors=K) 
clf.fit(X_train, y train) 

predictions = clf.predict(X_ test) 

print ('Predicted wieghts: %s' % predictions) 


o 











型 回归 33 





print ('Coefficient of determination: %s' % r2 Score (yY_ test, 
predictions) ) 

print ('Mean absolute error: %s' % mean_absolute error(y test, 
predictions) ) 

print ('Mean squared error: %s' % mean squared _error(y test, 
predictions) ) 

# Out[1]: 

Predicted wieghts: [ 70.66666667 79. 99 70.66666667] 


Coefficient of determination: 0.629056522674 
Mean absolute error: 8.33333333333 
Mean squared error: 95.8888888889 


MAE 是 预测 结果 误差 绝对 值 的 均值 。MA4E 的 计算 方法 如 公式 3.2 所 示 : 
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MAE -15-3 


n 








(公式 3.2) 























MSE 又 被 称 为 均 方 偏差 ( 均 方 偏差 )， 比 起 平均 绝对 误差 来 说 是 一 种 更 常用 的 指标 。 

















如 公式 3.3 Pras, MSE 是 预测 结果 误差 平方 的 均值 : 


i=0 


MSE = (y, -$y (公式 3.3) 








对 于 回归 模型 性 能 衡量 指标 来 说 ， 忽 略 误差 的 方向 非常 重要 ， 和 否则 一 个 回归 模型 中 正 











负 方 向 的 误差 将 会 相互 抵消 。MSE 和 MAE 分 别 通 过 对 误差 求 平方 和 求 绝 对 值 避免 了 这 个 
问题 。 对 一 个 较 大 的 误差 值 求 平方 会 加 大 它 对 整体 误差 的 贡献 比例 ， 因 此 MSE 比 MAE 对 












































于 腊 常 值 的 惩罚 程度 要 高 。 该 特性 对 于 一 些 问题 来 说 非常 有 用 。 由 于 MSE 其 有 


















































E 常 有 用 的 








数学 特性 ， 它 通常 是 性 能 衡量 指标 当仁不让 的 首选 。 注 意 在 普通 的 线性 回归 问题 中 ， 例 如 







































































上 一 章 中 的 简单 线性 回归 问题 ， 我 们 是 对 MSE 的 平方 根 求 极 小 值 。 
特征 缩放 





























当 特 征 有 相同 的 取 值 范围 时 ， 许 多 学 习 算法 将 会 运行 得 更 好 。 在 上 一 部 分 
用 了 两 个 特征 :一 个 二 元 值 特征 表示 性 别 ， 男 一 个 连续 
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P, RAME 


直 特 征 表示 单位 为 厘米 的 身高 。 考 
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虑 有 一 个 数据 集 ， 该 数据 集 包 含 身高 170 厘米 的 男性 和 身高 160cm 的 女性 。 

数据 集中 的 哪个 实例 更 接近 身高 164cm 的 男性 呢 ? 对 身高 预测 问题 来 说 ， 我 们 可 能 相 
信 测 试 实例 更 接近 男性 实例 ， 因 为 对 预测 体重 来 说 ， 性 别 差 异 可 能 会 比 6cm 的 身高 差距 更 
重要 。 但 是 如 果 我 们 以 毫米 为 单位 表示 身高 ， 测 试 实例 更 接近 于 身高 1600mm 的 女性 。 如 
果 我 们 以 米 为 单位 表示 身高 ， 测 试 实例 更 接近 于 身高 1.7m 的 男性 。 如 代码 3.12 所 示 ， 如 
果 我 们 以 微米 为 单位 表示 喘 高 ， 身 高 特征 对 距离 函数 结果 的 页 献 将 会 大 大 增加 。 
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代码 3.12 
# In[2]: 


from scipy.spatial.distance import euclidean 


# heights in millimeters 
X train = np.array([ 

(1700, 1], 

[1600, 0] 
]) 
x test = np.array([1640, 1]).reshape(1, -1) 
print (euclidean(X train[0, :], x test)) 
print (euclidean(X train[1, :], x test)) 


# heights in meters 

X train = 
[Late LE]; 
[1.6, 0] 

] ) 

x test = np.array([164, 1]).reshape(1, -1) 


np.array([ 


print (euclidean(X train[0, :], x test)) 
print (euclidean(X train[1, :], x test)) 


# Out[2]: 

8:30 

2.2360679775 

160.3 

160.4031171766933 

scikit-leam 类 库 中 的 StandardScaler 类 是 一 个 用 于 特征 缩放 的 转换 器 ， 它 能 确保 
所 有 的 特征 都 有 单位 方差 。 它 首先 将 所 有 实例 特征 值 减 去 均值 来 将 其 居中 。 其 次 将 每 个 实 
例 特征 值 除 以 特征 的 标准 差 对 其 进行 缩放 。 均 值 为 0， 方 差 为 1 的 数据 称 为 标准 化 数据 。 
像 LabelBinarizer —ff, StandardScaler 类 实现 了 特征 缩放 转换 接口 。 如 代码 3.13 
所 示 , 我 们 来 将 上 面 的 回归 问题 特征 做 标准 化 处 理 ， 再 次 拟 合 并 比较 前 后 两 个 模型 的 性 能 。 
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代码 3.13 

# In[3]: 

from sklearn.preprocessing import StandardScaler 
ss = StandardScaler () 

X train scaled = ss.fit_transform(X train) 


print (X_train) 
print (X_train_scaled) 


X test scaled = ss.transform(X test) 


clf£.fit(X_train_scaled, y train) 








predictions = clf.predict (xX test scaled) 
print ('Predicted wieghts: %s' % predictions) 
print ('Coefficient of determination: %s' % r2 score(y test, 
predictions) ) 
print ('Mean absolute error: %s' % mean_absolute_error(y test, 
predictions) ) 
print ('Mean squared error: %s' % mean squared _error(y test, 
predictions) ) 
# Out[3]: 
[[158 1 
170 1 
183 1 
191 1 
155 0 
L63 0 
180 0 
158 0 
170 0]] 








[[-0.9908706 1.11803399 
0.01869567 1.11803399 
1.11239246 1.11803399 
1.78543664 1.11803399 

-1.24326216 -0.89442719 

-0.57021798 -0.89442719 
0.86000089 -0.89442719 

-0.9908706 -0.89442719 
0.01869567 -0.89442719 
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Predicted wieghts: [ 78. 83.33333333 54. 64 .33333333] 


Coefficient of determination: 0.670642596175 
Mean absolute error: 7.58333333333 
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Mean squared error: 85.1388888889 
我 们 的 模型 在 标准 化 数据 上 性 能 表现 更 佳 。 表 示 性 别 的 特征 对 实例 之 间 的 距离 计算 贡 
献 更 大 ， 这 让 模型 能 做 出 更 好 的 预测 。 









































3.5 小结 














在 本 章 中 ， 我 们 介绍 了 KNN 模型 ， 它 是 一 种 可 以 用 于 分 类 任务 和 回归 任务 的 简单 而 
强大 的 模型 。KNN 是 一 种 惰性 学 习 模 型 和 非 参数 模型 。KNN 模型 不 会 从 训练 数据 中 估计 
回 定 数量 的 模型 参数 ， 它 会 将 所 有 训练 实例 存储 起 来 ， 并 使 用 离 测试 实例 最 近 的 实例 去 预 












































测 响应 变量 。 我 们 解决 了 一 个 玩具 分 类 问题 和 一 个 回归 问题 ， 同 时 还 介绍 了 scikit-learn 类 
库 中 的 转换 器 接口 。 我 们 用 LabelBinarizer 类 将 字符 串 标 签 转换 为 二 元 标签 ， 用 









































StandardScaler 类 将 特征 标准 化 。 
在 下 一 章 中 ， 我 们 将 讨论 从 分 类 变量 、 文 本 以 及 图 片 中 提取 特征 的 技术 ， 这 些 方法 能 
让 我 们 将 KNN 模型 运用 到 更 多 现实 世界 的 问题 中 。 





























第 4 章 
特征 提取 








在 前 面 章节 中 讨论 的 例子 使 用 了 实 值 解释 变量 ， 例 如 披萨 的 直径 。 许 多 机 器 学 习 问 
题 需 要 从 类 别 变量 、 文 本 或 者 图 像 中 学 习 。 在 本 章 中 ， 我 们 将 学 习 创 建 能 表示 这 些 变量 
的 特征 。 


41 从 类 别 变 量 中 提取 特征 



























































许多 问题 中 的 解释 变量 是 类 别 变 量 或 者 名 义 变量 。 类 别 变 量 的 取 值 范围 是 一 组 固定 值 。 
例如 ， 一 个 预测 职位 薪水 的 应 用 可 能 会 使 用 类 似 职 位 所 在 城市 这 样 的 类 别 变量 。 类 别 变量 
通常 使 用 one-of-k 编码 算法 或 者 one-hot 编码 算法 进行 编码 ， 因 此 将 使 用 一 个 二 进 制 特征 
表示 解释 变量 的 所 有 可 能 取 值 。 
例如 , 假设 我 们 的 模型 中 有 一 个 city 变量 , 该 变量 可 以 从 下 面 3 个 值 中 取 值 :New York、 
San Francisco 或 者 Chapel Hill.One-hot 编码 算法 使 用 每 个 可 能 城市 的 二 元 特征 来 表示 变量 。 
scikit-learn 类 库 中 的 Dictvectorizer 类 是 一 个 可 以 对 类 别 特征 进行 one-hot 编码 的 转换 
器 ， 有 具体 用 法 如 代码 4.1 所 示 : 
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代码 4.1 
# In[1]: 
from sklearn. featur xtraction import DictVectorizer 
onehot_encoder = DictVectorizer () 
X= [ 
{'city': 'New York"'}, 
{'city': 'San Francisco'}, 


{'city': 'Chapel Hill'} 
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print (onehot encoder.fit transform(X) .toarray() ) 


[ 1. 
需要 注意 的 是 ， 特 征 

是 New York。 特 征 向 量 的 
将 一 个 类 别 解 释 变量 


类 
0，San Francisco 表示 为 1 





AAA 


obs 











的 顺序 在 结果 向 量 
2 个 元 素 代 表 New York 值 ， 
用 单个 整数 特征 表示 也 许 会 上 
> Chapel Hill 表示 为 2。 这 利 











FPF 是 随机 的 。 在 第 1 个 训练 实例 ! 


A [一 
它 等 后 


它 等 同 于 第 1 个 实例 。 


CREAN. Ph 
表示 法 存在 













































































会 对 现实 中 不 存在 的 城 









































New York 可 以 表示 为 
一 些 问题 用 整数 表示 城 
了 顺序 进行 编码 , 同时 也 会 促使 模型 对 城市 进行 没有 意义 的 比较 。 


没有 什么 自然 顺序 会 使 Chapel Hill 的 编号 比 San Francisco 大 1。One-hot 编码 算法 避免 了 这 














个 问题 ， 它 只 对 变量 的 值 进行 表示 。 
4.2 ”特征 标准 化 


EY 








能 。 回 想 一 下 ， 标 准 化 数据 有 零 平 均 




















其 平均 值 为 0。 当 特征 向 量 所 有 特征 的 方差 处 于 相同 量 级 ， 则 拥有 




















AS 音 的 内 容 中 ， 我 们 了 解 到 当 学 习 算 法 使 
































标准 化 数据 进行 ， 





| 练 时 会 有 更 好 
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HPE 
































值 和 单位 方差 。 零 平均 值 解释 变量 相对 于 原点 局 ， 












































征 的 方差 和 其 他 特征 
























































去 也 会 更 慢 地 收敛 到 最 但 





EBB 
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位 方差 。 如 果 一 个 特 
E 的 方差 相差 太 大 的 数量 级 ， 该 特征 会 控制 学 习 算 法 ， 阻 止 算法 从 其 他 


变量 中 学 习 。 当 数据 没有 标准 化 时 ， 一 些 学 习 算 光 直 。 除 了 我 


们 在 前 一 章 中 使 用 的 StandardScaler 转换 器 ，prepocessing 模块 中 的 scale 函数 
也 可 以 用 于 单独 对 数据 集 的 任何 轴 进 行 标准 化 ， 如 代码 4.2 所 示 。 

代码 4.2 

# In[1]: 


from sklearn import preprocessing 


import numpy as np 
X = np.array([ 


[Orage OW Snr Sl Sey Geg Laly 
[Og Ory UB agin Doge LO S25 
[Ory Gopi leg 2a “Oey LL] 


print (preprocessing.scale (X) 


# Out[1]: 


[{ 0. -0.70710678 - 


) 


1.38873015 0.52489066 0.59299945 
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-1.35873244] 

20% -0.70710678 0.46291005 0.87481777 0.81537425 
1.01904933] 

[ Ox 1.41421356 0.9258201 -1.39970842 -1.4083737 
0.33968311] ] 














Jn, RobustScaler Æ StandardScaler 之 外 的 另 一 个 选择 ， 它 对 于 异常 值 具 有 
更 好 的 鲁 棒 性 。standardscaler 会 从 在 每 个 实例 值 上 减 去 特征 均值 ， 然 后 除 以 特征 上 
标准 差 。 为 了 减轻 大 异常 值 的 影响 ，RobustScaler 会 减 去 中 位 数 ， 然 后 除 以 四 分 位 差 。 
四 分 位 数 通过 把 排序 后 的 数据 集 等 分 为 4 个 部 分 来 计算 。 中 位 数 是 第 2 个 四 分 位 数 ， 四 分 
位 差 是 第 1 个 四 分 位 数 和 第 3 个 四 分 位 数 的 差 值 。 


4.3 ”从 文本 中 提取 特征 
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许多 机 器 学 习 问 题 会 使 用 文本 , 文本 通常 表示 为 自然 语言 。 文 本 必须 转换 成 一 个 向 量 
以 此 来 将 文本 内 容 的 某 些 方面 进行 编码 。 在 下 面 的 内 容 中 ， 我 们 将 审阅 机 器 学 习 中 最 常用 
的 两 种 文本 表示 形式 的 变 体 : 词 袋 模型 和 词 向 量 。 


4.3.1 词 袋 模型 


词 袋 模型 是 最 常用 的 文本 表示 法 ， 这 种 表示 法 使 用 一 个 多 重 集 或 袋 对 文本 中 出 现 的 单 
词 进行 编码 。 词 袋 模型 不 会 编码 任何 文本 句法 ， 同 时 忽视 单词 的 顺序 ， 忽 略 所 有 的 语法 。 
词 袋 模型 可 以 被 看 作 是 one-hot 编码 的 一 种 扩展 , 它 会 对 文本 中 关注 的 每 一 个 单词 创建 一 个 
特征 。 词 袋 模型 产生 的 灵感 来 源 于 包含 类 似 单 词 的 文档 经 常 有 相似 的 含义 。 词 袋 模型 可 以 
有 效 地 用 于 文档 分 类 和 检索 ， 同 时 不 会 受到 编码 信息 的 限制 。 一 个 文档 的 集合 称 为 一 个 语 
料 库 。 如 代码 4.3 所 示 ， 我 们 使 用 一 个 包含 两 个 文档 的 语料库 来 检验 词 包 模型 。 
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代码 4.3 
# In[1]: 
corpus = [ 
"UNC played Duke in basketball', 
"Duke lost the basketball game' 
] 


代码 4.3 中 的 语料库 包含 8 个 独特 的 单词 ， 语 料 库 中 独特 的 单词 组 成 了 语料库 的 词 表 。 
词 包 模 型 使 用 一 个 特征 向 量 表示 每 个 文档 ， 其 中 的 每 个 元 素 和 语料库 词 表 中 的 一 个 单词 相 
对 应 。 我 们 的 语料库 包含 8 个 独特 的 单词 ， 因 此 每 个 文档 将 由 包含 8 个 元 素 的 向 量 进行 表 
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示 。 组 成 一 个 特征 向 量 的 元 素数 量 称 为 向 量 的 维度 。 一 个 字典 会 把 词 对 
指数 。 


下 
oo 





央 射 到 特征 向 量 的 


词 包 的 字典 可 以 使 用 Python 的 Dictionary 实现 ， 但 是 
& Python 的 数据 结构 和 词 包 表示 法 的 映射 之 间 有 明显 的 


区 别 。 


























在 最 基本 的 词 包 表 示 中 ， 特 征 向 量 的 每 个 元 素 都 是 一 个 二 元 值 ， 用 来 表示 对 应 的 单词 
是 否 在 文档 中 出 现 。 例 如 ， 第 一 个 文档 的 第 一 个 单词 是 UNC。UNC 是 字典 中 的 第 一 个 单 
词 ， 因 此 向 量 的 第 1 个 元 素 等 于 1。 字 典 的 最 后 一 个 词 是 game， 第 一 个 文档 没有 包含 单词 
game， 因 此 其 特征 向 量 的 第 8 个 元 素 设置 为 0。CountVectorizer 转换 器 可 以 从 一 个 字 
符 串 或 者 文件 中 生成 词 包 表 示 。 默 认 情 况 下 ，CountVectorize 把 文档 中 的 字符 转换 为 






























































































































































意义 的 字符 序列 











小 写 并 对 文档 进行 词汇 切 分 。 词 汇 切 分 是 一 个 将 字符 串 切 分 为 标志 或 者 有 


























的 过 程 。 标 志 通 常 是 单词 ， 但 是 也 有 可 能 是 更 短 的 序列 ， 包 括 标点 符号 和 词缀 。 
CountVectorizer 使 用 一 个 正则 表达 式 将 字符 串 用 空格 分 开 ， 并 提取 长 度 大 于 等 于 两 个 


























字符 的 字符 序列 进行 切 分 。 如 代码 4.4 所 示 ， 我 们 的 语料库 中 的 文档 可 以 表示 为 以 下 的 特 








{IE JEJ EE o 


代码 4.4 
# In[2]: 





from sklearn.feature_extraction.text import CountVectorizer 


vectorizer = CountVectorizer() 
print (vectorizer.fit_transform(corpus) .todense() ) 


print (vectorizer.vocabulary ) 


# Out[2]: 
LIT 101010 1] 
FLT Oe 20: 2 O'].J 


{'played': 5, 'the': 6, ‘in': 3, 'lost': 4, 'game': 2, 'basketball': 0, 


Func" Vp tdukers 24 








我 们 的 语料库 现在 包含 下 列 10 个 独特 的 单词 .注意 到 I 和 a 由 于 没有 匹配 正则 表达 式 ， 






































量 ， 如 代码 4.5 所 示 。 


Im 





代码 4.5 
# In[3]: 
corpus.append('I ate a sandwich') 





因此 没有 被 提取 出 来 。 现 在 我 们 向 语料库 中 增加 第 3 个 文档 ， 然 后 检查 词 表 字典 和 特征 所 








print (vectorizer.fit_transform(corpus) .todense() ) 
print (vectorizer.vocabulary ) 





# Out[3]: 
LEO E £0 2-002 010° 2 
EOT ENE OL 0; “0. TO 
[1000000100 
{'played': 6, 'the': 8, ‘in': 4, 'game': 3, 'lost': 5, 'ate': 0, 
"sandwich': 7, 'basketball': 1, 'unc': 9, 'duke': 2} 
和 第 3 个 文档 比 起 来 ， 前 两 个 文档 的 意义 更 接近 。 因 此 当 使 用 例如 欧 几 里 得 距离 这 样 
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的 标准 进行 度量 时 ， 和 第 3 个 文档 的 特征 向 量 相 比 ， 前 Aee 应 的 特征 向 量 更 加 
两 个 向 量 之 间 的 欧 儿 里 得 距离 等 于 两 个 向 量 差 值 的 欧 几 里 得 范 数 , 或 者 LRH, 如 公 
所 示 : 
























































d =| -x| (公式 




















一 个 范 数 是 一 个 为 向 量 赋予 正 值 尺寸 的 函数 。 一 个 向 量 的 欧 几 里 得 范 数 等 于 这 个 向 量 











的 量 级 ， 如 公式 4.2 所 示 : 


|x|] = Va +27 tt (公式 


scikit-learn 类 库 的 eculidean distances 函数 可 以 用 来 计算 两 个 或 多 个 问 直 











类 似 。 


式 4.1 


4.1) 


山 | 





4.2) 


量 之 间 





























的 距离 ， 同 时 确认 语意 最 为 类 似 的 文档 在 向 量 空间 中 最 为 靠近 。 在 下 面 例子 中 ， 如 代 
所 示 ， 我 们 将 使 用 euclidean distances 函数 对 文档 进行 特征 向 量 比较 。 





























代码 4.6 

In[4]: 

from sklearn.metrics.pairwise import euclidean distances 

X = vectorizer.fit_transform(corpus) .todense() 

print ('Distance between 1st and 2nd documents:' 

euclidean distances (X[0], X[1])) 

print ("Distance between 1st and 3rd documents:' 

euclidean distances(X[0], X[2])) 

print ("Distance between 2nd and 3rd documents:' 
euclidean _distances(X[1], X[2])) 








# Out[4]: 
Distance between 1st and 2nd documents: [[ 2.44948974]] 
Distance between 1st and 3rd documents: [[ 2.64575131]] 


但 4.6 
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Distance between 2nd and 3rd documents: [[ 2.64575131]] 


现在 假设 我 们 要 使 用 一 个 包含 新 闻 文 章 的 语料库 而 不 是 玩 上 其 语料库 。 我 们 的 字典 现在 
百 上 千 的 独特 单词 而 不 仅仅 只 有 12 个 ,表示 文章 的 特征 向 量 将 包含 成 百 上 干 


可 能 会 包含 




































































个 元 素 ， 其 中 的 许多 元 素 将 为 0。 大 部 分 的 体育 主题 文章 中 不 会 有 金融 主题 文章 中 特有 的 
单词 ， 许 多 文化 主题 文章 中 不 会 有 政治 主题 文章 中 特有 的 单词 。 包 含 许多 0 元 素 的 高 维 向 









































量 被 称 为 稀 踊 向 量 。 


使 用 高 维 数据 给 所 有 的 机 器 学 习 任 务 带 来 了 一 些 问题 ， 包 括 那 些 不 涉及 文本 的 任务 ， 
这 些 问 题 被 统称 为 维度 诅咒 。 第 一 个 问题 是 高 维度 向 量 比 低 维度 向 量 需 要 更 多 的 内 存 和 计 





算 能 力 。SciPy 



















































































类 库 提 供 了 一 些 能 更 有 效 地 表示 稀 下 向 量 中 非 零 元 素 的 数据 类 型 来 缓和 这 个 












































问题 。 这 二 个 问题 是 随 着 特征 空间 维度 的 增加 ， 模 型 需要 更 多 的 训练 数据 以 确保 有 足够 多 



























































特征 值 组 成 的 训练 实例 。 如 果 缺 少 某 个 特征 的 训练 实例 ， 算 法 将 过 度 拟 合 训练 数据 中 的 











噪声 ， 无 法 泛 化 。 在 后 面 的 内 容 中 ， 我 们 将 审阅 几 种 减少 文本 特征 维度 的 策略 。 在 之 后 的 
章节 中 ， 我 们 将 会 审阅 更 多 降低 维度 的 技巧 。 


4.3.2 ” 停 用 词 过 小 















































降低 特征 空间 维度 的 一 种 基本 策略 是 将 所 有 的 文本 转换 为 小 写 。 这 是 因为 字母 的 大 小 























写 对 单词 的 意 





























头 也 许 表明 一 
第 二 个 策略 是 去 掉 语 料 库 大 部 分 文档 中 经 常 出 现 的 单词 。 这 些 单词 被 称 为 停 用 词 ， 经 
the” a 和 “an” 这 样 的 限定 词 ， 例如 “do” “be” 和 “will” 这 样 的 助动词 ， 





常 包括 例如 “ 


思 并 没有 影响 。sandwich 和 Sandwich 在 大 部 分 的 上 下 文中 意思 相同 。 大 写 
个 单词 位 于 句 首 , 但 是 词 包 模 型 已 经 去 除了 所 有 来 自 单词 顺序 和 语法 的 信息 。 
















































































以 及 例如 “on”“around” 和 “beneath” 这 样 的 介词 。 停 用 词 通常 通过 语法 和 不 是 本 身 的 意 


思 来 帮助 文档 


























形成 文档 的 意义 。CountVectorizer 可 以 通过 stop words 关键 词 参数 





过 滤 停 用 词 ， 











同时 本 身 也 包含 一 个 基本 的 英语 停 用 词 基 本 列表 。 




















我 们 使 用 


代码 4.7 
# In[5]: 














停 用 词 过 小 算法 来 为 文档 重新 创建 特征 向 量 ， 如 代码 4.7 所 示 。 


Tm 











vectorizer = CountVectorizer(stop words='english"') 


print (vectorizer.fit_transform(corpus) .todense() ) 


print (vectorizer.vocabulary ) 


# Out [5] 
[fo 1 1 
[0 11 


0-0) 10°14 
110 0 0] 
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{1000001 0]]j 
{'played': 5, 'game': 3, ‘lost': 4, ‘ate': 0, 'sandwich': 6, 
"basketball': 1,'unc': 7, 'duke': 2} 
现在 特征 向 量 有 更 少 的 维度 ， 而 且 前 两 个 文档 仍然 比 起 第 3 个 文档 来 说 相互 之 间 更 加 
类 似 
or el o 


4.3.3 ” 词 干 提取 和 词 形 还 原 


虽然 停 用 词 过 滤 对 于 维度 降低 是 一 种 很 简单 的 策略 ， 但 是 大 部 分 的 停 用 词 列 表 仅 仅 包 
含 几 百 个 单词 。 一 个 巨型 的 语料库 在 过 滤 之 后 依然 包含 成 百 上 于 个 独特 的 单词 。 两 种 能 
一 步 减少 维度 的 策略 分 别 被 称 为 词 干 提取 和 词 形 还 原 。 

一 个 高 维度 文本 向 量 可 能 会 对 同一 个 单词 的 派生 形式 和 词尾 变化 形式 分 开 编 码 。 例 如 ， 
“jumping” 和 “jumps” 是 单词 “jump” 的 不 同形 式 。 在 一 个 由 跳远 主题 文章 组 成 的 语料库 
中 ， 一 个 文档 向 量 可 能 会 对 一 个 特征 向 量 中 每 个 元 素 的 词尾 变形 形式 进行 编码 。 词 干 提取 
和 和 词 形 还 原 是 两 种 将 同一 个 单词 的 词尾 变化 形式 和 派生 形式 压缩 成 单个 特征 的 策略 。 现 在 
我 们 来 考虑 另 一 个 由 两 个 文档 组 成 的 玩具 语料库 ， 如 代码 4.8 所 示 。 









































































































































































































































代码 4.8 
# In[6]: 
corpus = [ 
"He ate the sandwiches', 





‘Every sandwich was eaten by him' 

] 

vectorizer = CountVectorizer(binary=True, stop words='english') 
print (vectorizer.fit_transform(corpus) .todense() ) 

print (vectorizer.vocabulary ) 


# Out [6]: 
LEL 0 0 1] 

{0 11 0]] 
{'ate': 0, ‘eaten': 1, 'sandwich': 2, 'sandwiches': 3} 
两 个 文档 的 意思 类 似 , 但 是 特征 向 量 却 没有 共同 的 元 素 。 所 有 文档 都 包含 一 个 单词 ate 
的 动词 变化 和 一 种 形式 的 单词 sandwich。 理 想 情 况 下 ， 这 些 相 似 点 都 应 该 在 特征 向 量 中 有 
所 反映 。 词 形 还 原 是 一 个 根据 上 下 文 决 定 一 个 词 目 或 者 形态 学 词根 过 程 。 词 目 是 单词 的 基 
本 形式 ， 用 于 把 单词 放 入 一 个 字典 中 。 词 干 提取 和 词 形 还 原 的 目标 相似 ， 但 是 它 不 会 尝试 
产 出 单词 的 形态 学 词根 。 相 反 ， 词 干 提取 会 删除 所 有 作为 词缀 的 字符 模式 ， 最 终 产 出 一 个 
不 一 定 是 有 效 单 词 的 标记 。 词 形 还 原 经 常会 需要 一 个 词汇 资源 ， 例 如 WordNet 数据 库 以 及 
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单词 的 词性 。 词 干 提取 算法 经 常 使 用 规则 而 不 是 词汇 资源 来 产 出 词 干 ， 甚 至 可 以 在 缺乏 上 
下 文 的 情况 下 在 任何 标记 上 进行 操作 。 让 我 们 在 两 个 文档 中 考察 对 单词 gathering 做 词 形 还 
原 ， 如 代码 4.9 所 示 。 






































代码 4.9 

# In[7]: 

corpus = [ 
'I am gathering ingredients for the sandwich.', 
'There were many wizards at the gathering.' 


] 

在 第 一 个 句子 中 , gathering 是 一 个 动词 , 它 的 词 目 是 gather。 在 第 二 个 句子 中 , gathering 
是 一 个 名 词 ， 它 的 词 目 是 gathering。 我 们 将 使 用 NLTK 对 这 个 词 包 进行 词 干 提取 和 词 形 还 
原 .NLTK 的 安装 方法 可 以 参考 http:/www.nlkt.org/install.html。 根 据 gathering 的 词性 , NLTK 
的 WordNetLemmatizer 类 可 以 在 所 有 文档 中 正确 地 对 单词 做 词 形 还 原 ， 如 代码 4.10 


所 示 。 


代码 4.10 
# In[8]: 
from nltk.stem.wordnet import WordNetLemmatizer 


lemmatizer = WordNetLemmatizer () 



















































































print (lemmatizer.lemmatize('gathering', 'v')) 
print (lemmatizer.lemmatize('gathering', 'n')) 
# Out[8]: 

gather 

gathering 

















让 我 们 来 比较 词 形 还 原 和 词 干 提取 。PorterStemmer 类 不 会 考虑 屈折 形式 的 词性 ， 
对 两 个 文档 都 返回 gather， 如 代码 4.11 所 示 : 








代码 4.11 

# In[9]: 

from nltk.stem import PorterStemmer 
stemmer = PorterStemmer () 

print (stemmer.stem('gathering') ) 





# Out [9]: 
gather 


现在 对 我 们 的 玩具 语料库 做 词 形 还 原 ， 如 代码 4.12 所 示 。 
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代码 4.12 

# In[1]: 

from nltk import word tokenize 

from nltk.stem import PorterStemmer 

from nltk.stem.wordnet import WordNetLemmatizer 
from nltk import pos tag 


wordnet tags = ['n', 'v'] 
corpus = [ 
"He ate the sandwiches', 





"Every sandwich was eaten by him' 


] 


stemmer = PorterStemmer () 








print('Stemmed:', [[stemmer.stem(token) for token in 
word tokenize (document) ] for document in corpus]) 


def lemmatize(token, tag): 
if tag[0].lower() in ['n', 'v']: 





return lemmatizer.lemmatize (token, tag[0].lower()) 








return token 


lemmatizer = WordNetLemmatizer () 





tagged corpus = [pos _tag(word_tokenize(document)) for document in 
corpus] 

print ('Lemmatized:', [[lemmatize(token, tag) for token, tag in 
document] for document in tagged corpus]) 


# Out [1]: 
Stemmed: [['He', '‘ate', 'the', 'sandwich'], ['everi', 'sandwich', 'wa', 





Teaten', 'by', 'him']] 





Lemmatized: [['He', ‘'eat', 'the', 'sandwich'], ['Every', 'sandwich', 
"be', ‘eat', 'by', 'him']] 


通过 词 干 提取 和 词 形 还 原 ， 我 们 减少 了 特征 空间 的 维度 。 我 们 还 产 出 了 更 能 有 效 编码 
文档 意思 的 特征 表示 ， 尺 管事 实 上 语料库 字典 中 单词 在 句子 中 有 不 同 的 词尾 变化 。 


4.3.4 tf-idf 权重 扩展 词 包 


在 前 面 的 内 容 中 ， 我 们 使 用 了 词 包 表 示 

























































































去 来 创建 特征 向 量 ， 无 论 该 单词 是 否 出 现在 文 





一 < 
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词 频 。 


















































档 中 我 们 都 对 语料库 字典 中 的 单词 进行 编码 。 这 些 特征 向 量 不 会 编码 语法 、 单 词 顺序 或 者 





























直观 上 来 说 ， 一 个 单词 在 文档 中 出 现 的 频率 可 以 表明 该 文档 与 单词 的 相关 程度 。 和 

















某 个 单词 上 只 出 现 一 次 的 长 文档 相 比 ， 同 样 的 单词 出 现 很 多 次 的 文档 可 能 讨论 的 是 完全 不 同 




















的 主题 。 在 本 节 内 容 中 ， 我 们 将 创建 编码 单词 频数 的 特征 向 量 ， 并 讨论 用 于 减轻 由 编码 单 
词 频数 带 来 的 两 个 问题 的 策略 。 我 们 将 使 用 一 个 整数 来 表示 单词 在 文档 中 出 现 的 次 数 ， 而 







































































不 是 使 用 一 个 二 元 值 表示 特征 向 量 中 的 每 个 元 素 。 通 过 使 用 停 用 词 过 滤 ， 语 料 库 被 表示 为 
以 下 的 特征 向 量 ， 如 代码 4.13 所 示 。 


代码 4.13 


# 


Trt [4b Jet 


import numpy as np 





from sklearn.feature extraction.text import CountVectorizer 


corpus = ['The dog ate a sandwich, the wizard transfigured a sandwich, 


and I ate a sandwich'] 


vectorizer = CountVectorizer(stop words='english"') 


frequencies = np.array(vectorizer.fit_ transform(corpus) .todense()) [0] 
print (frequencies) 


print ('Token indices %s' % vectorizer.vocabulary ) 





for token, index in vectorizer.vocabulary .items(): 


print ('The token "%s" appears %s times' % (token, 
frequencies [index] ) ) 








Out [1]: 


ZL eS! les IE] 
Token indices {'ate': 0, 'sandwich': 2, 'dog': 1, 'wizard': 4, 
"transfigured': 3} 





The token "ate" appears 2 times 

The token "sandwich" appears 3 times 
The token "dog" appears 1 times 

The token "wizard" appears 1 times 








The token "transfigured" appears 1 times 


h 














MRIS 4.13 所 示 , 对 应 dog 的 元 素 (索引 为 1) MEKAN 1, 对 应 sandwich 的 元 素 CR 



































引 为 2) 被 设置 为 3 标明 对 应 的 单词 分 别 出 现 了 1 次 和 3 次 ,需要 注意 CountVectorizer 
类 的 binary 参数 被 忽略 了 ， 其 默认 值 为 false， 此 时 将 返回 单词 出 现 了 真正 频数 而 非 二 
元 频数 。 在 特征 问 量 中 对 单词 项 的 真实 频数 进行 编码 可 以 为 文档 的 意义 提供 额外 的 信息 ， 
但 前 提 需 要 假设 所 有 文档 都 有 相似 的 长 度 。 许 多 单词 也 许 在 两 个 文档 中 出 现 的 频数 相同 ， 
















































































但 是 如 果 其 中 一 个 文档 长 度 比 男 一 个 大 数 倍 ， 两 个 文档 仍然 会 有 很 大 差别 。scikit-learmn 类 
库 的 TfdfTransformer 类 可 以 通过 将 单词 频数 向 量 和 矩阵 转换 为 一 个 标准 化 单词 频数 权 
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重 和 矩阵 来 缓和 这 个 问题 。 默 认 情 况 下 ，TfdfTransfotrmet 类 对 真实 频数 做 光滑 化 处 理 ， 
并 对 其 运用 帮 范 数 。 光 滑 化 标准 后 的 单词 频数 可 以 由 公式 4.3 给 出 : 






























































Hegel (公式 43) 


[xl 
在 公式 4.3 中 ， 分 子 表示 单词 在 文档 中 出 现 的 频数 ， 分 母 是 单词 频数 向 量 的 友 范 数 。 
除了 对 真实 单词 频数 进行 标准 化 以 外 ， 我 们 还 可 以 通过 计算 单词 频数 的 对 数 将 频数 缩放 到 
个 有 限制 的 范围 内 来 改善 特征 向 量 。 单 词 频数 的 对 数 缩放 值 由 公式 4.4 给 出 : 
tf (t,d) =1+ log f(t,d) (公式 4.4) 














































































































当 sublinear tf 关键 词 参数 设置 为 True 时 ，TfdfTransformer 会 计算 单词 频 
数 的 对 数 缩放 值 。 标 准 化 和 对 数 缩放 之 后 的 单词 频数 可 以 表示 一 个 文档 中 单词 出 现 的 频 
数 ， 同 时 也 能 缓和 不 同文 档 大 小 的 影响 。 然 而 ， 这 样 的 表示 法 仍然 存在 另 一 个 问题 。 特 
征 向 量 包含 大 量 在 一 个 文档 中 频繁 出 现 的 单词 的 权重 ， 即 使 这 些 单词 在 语料库 中 的 大 部 
分 文档 里 都 频繁 出 现 。 这 些 单词 对 表示 某 个 特定 文档 相对 于 语料库 总 的 其 他 文档 的 意义 
来 说 没有 帮助 。 例 如 ， 一 个 关于 杜 克 大 学 篮球 队 文章 的 语料库 的 大 部 分 文档 中 可 能 都 包 
含 了 Coach K, trip 和 flop 这 样 的 单词 。 这 些 单词 可 以 看 作 语 料 库 特有 的 停 用 词 ， 并 且 可 
能 对 计算 文档 的 相似 性 没有 帮助 。 逆 文档 频率 ( IDF ) 是 一 种 衡量 一 个 单词 在 语料库 中 是 
否 稀有 或 者 常见 的 方式 。 

逆 文 档 频 率 可 以 由 公式 4.5 算出 : 
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在 公式 4.5 中 ， 分 子 是 语料库 中 的 文档 总 数 ， 分 母 是 语料库 中 包含 该 单词 的 文档 总 数 。 

个 单词 的 tf-idf 值 是 其 单词 频数 和 逆 文 档 指数 的 乘积 。 当 use_idf 关键 词 参数 被 设置 为 其 

默认 值 Ture 的 时 候 ，TfidfTransformer 将 返回 thidf 权重 。 由 于 tf-idf 权重 特征 向 量 经 常用 

于 表示 文本 ,scikit-learn 类 库 提 供 了 一 个 TfidfVectorizer 转换 器 类 , 它 封 装 了 CountVectorizer 

类 和 TfidfTransformer 类 。 让 我 们 使 用 TfidfVectorizer 类 来 为 语料库 创建 tf-idf 权重 特征 向 
量 ， 如 代码 4.14 所 示 。 


idf (t,D) = lo (公式 4.5) 



































































































































代码 4.14 
# In[1]: 
from sklearn.feature extraction.text import TfidfVectorizer 





corpus = [ 
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'The dog ate a sandwich and I ate a sandwich', 





'The wizard transfigured a sandwich' 

] 

vectorizer = TfidfVectorizer(stop words='english"') 
print (vectorizer.fit_transform(corpus) .todense() ) 


# Out[1]: 
[[ 0.75458397 0.37729199 0.53689271 0. QO. ] 
0 QO. 0.44943642 0.6316672 0.6316672 ]] 























通过 比较 tf-idf 权重 和 真实 单词 频数 ， 我 们 能 看 到 在 语料库 中 许多 文档 中 常见 的 单词 
(例如 sandwich)， 都 已 经 被 惩罚 。 


4.3.5 ”空间 有 效 特征 癌 量化 与 哈 希 技巧 


在 本 章 前 面 的 示例 中 ， 都 有 一 个 字典 包含 语料库 中 所 有 独特 标记 被 用 于 将 文档 中 的 标 
记 映 射 到 特征 向 量 元 素 。 然 而 创建 这 个 字典 有 两 个 缺点 ， 首 先 ， 需 要 这 有 历 两 次 语料库 ， 第 
一 次 遍历 用 于 创建 字典 ， 第 二 次 裔 历 用 于 为 文档 创建 特征 向 量 ， 其 次 ， 字 上 典 必须 存储 在 内 
存 中 ， 这 对 于 大 语料库 来 说 这 是 很 昂贵 的 。 我 们 可 以 通过 对 标记 使 用 哈 希 函数 直接 决定 其 
在 特征 向 量 中 的 索引 来 避免 创建 这 个 字典 ， 这 个 捷径 叫 作 哈 希 技巧 ， 如 代码 4.15 所 示 。 
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代码 4.15 
# In[1]: 
from sklearn.feature extraction.text import HashingVectorizer 








corpus = ['the', ‘'ate', 'bacon', 'cat'] 





vectorizer = HashingVectorizer(n_ features=6) 
print (vectorizer.transform(corpus) .todense() ) 


# Out[1]: 

[{[-1. 0 Ow Oe, Oe. > 
P20 Os, “On, “tae Qs WO] 
[ 0s “0 Oe Oe Shee 20] 
KOL is Oe, 08) One OT] 














哈 希 技巧 是 无 状态 的 。 因 为 哈 希 技巧 不 需要 初始 遍历 语料库 ， 它 能 被 用 于 在 并 行 在 线 
谈 用 或 者 流 式 应 用 中 创建 特征 向 量 。 需 要 注意 n features 是 一 个 可 选 关键 词 参数 ， 其 默认 
直 2 对 大 多 数 问题 来 说 已 经 绰 纯 有 余 ， 在 代码 4.15 中 它 被 设置 为 6 以 使 整个 矩阵 可 以 足 
够 小 以 便 能 打印 出 来 。 还 需要 注意 的 是 一 些 单词 的 频数 为 负数 。 由 于 哈 希 冲突 可 能 会 发 生 ， 
HashingVectorizer 使 用 一 个 签名 哈 希 函数 。 一 个 特征 的 的 值 会 采用 和 其 标记 哈 希 一 样 
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WEH o WRA 














特征 向 量 











失 外 加 信 ， 





4.3.6 


个 标记 ， 而 词 向 机 














Hin] cats 在 
量 的 第 4 个 元 素 值 
其 哈 希 值 决定 的 索引 为 3， 那么 特征 向 量 的 第 4 
建 了 一 种 哈 希 冲突 的 错 i 
县 伪造 要 好 得 多 。 使 
模型 难以 检查 。 


词 向 量 


词 向 量 是 一 种 减轻 了 一 些 词 袋 模型 
量 则 使 用 一 个 向 量 。 向 量 经 常会 被 压缩 ， 0% 

















口 Sb 


RHE 














一 个 文档 中 出 现 了 2 次 ， 
为 2 〈 表 示 单 词 cats 出 现 的 次 数 )。 
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决定 的 索引 为 =3， 那 么 该 文档 
如 果 单 词 dogs 也 出 现 了 2 次 ， 
该 增加 2。 使 用 签名 哈 希 函数 创 

















哈 希 值 
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4 个 元 素 值 应 


























相互 抵消 而 不 是 累计 的 可 能 ， 但 仅仅 是 信 ， 














哈 希 技巧 的 另 一 个 缺点 是 由 于 字典 没有 





J 缺点 的 文本 表示 法 。 





Si 


D 








的 丢失 要 比 信息 丢 
存储 ， 因 此 产 出 的 


























袋 模型 使 用 一 个 标量 表示 一 











H, 





表示 单词 的 向 量 处 于 一 个 度 
说 ， 词 问 量 参数 化 的 函数 ， 


接受 





这 个 函数 本 质 上 是 一 


一 个 词 向 量 





量 空 间 中 。 


ms 





语义 相似 的 单词 对 应 的 向 量 互相 也 很 接近 。 

















50~500 个 维度 。 这 些 
具体 来 

















XÈ 





个 来 自 一 些 语言 的 标记 作为 输入 项 ， 并 产 出 一 个 向 量 。 








E. 
HA 


个 词 向 上 
时 函数 的 参数 通 稼 是 通过 


all 





入 








E 阵 参数 化 的 查找 表 。 

















虑 训练 


个 用 于 预测 














关心 词 向 量 参 











实例 可 以 从 大 型 语料库 中 提取 





网 站 。 











能 产 出 一 个 向 量 。 


A 


下 


器 。 





负 问 实例 可 以 通过 使 

结果 序列 可 能 是 无 意义 的 。 

一 个 负 问 实例 的 例子 是 the Duke basketball play 
我 们 的 语言 模型 有 两 个 组 件 。 多 














数 是 如 何 产生 的 ， 我 们 将 在 
我 们 用 于 这 个 任务 的 数据 集 包含 单词 序列 元 组 和 标明 序列 是 否 有 效 的 二 元 标签 。 


培训 练 一 个 不 同和 
个 包含 某 种 语言 5 个 单词 的 序列 是 否 有 效 的 语言 模型 。 








E 阵 是 如 何 学 习 的 呢 ? 

的 模型 来 学 习 的 。 例 如 ， 我 们 考 
1 于 我 们 只 
述 这 个 模型 和 算法 。 


这 个 外 
ES fh 









































HOT BRANT 















































单词 序列 产生 , 例如 谷歌 于 





IEM 
所 闻 、 维 基 百 科 或 者 Common Crawl 

































































Ade — 


外 











SUFI! 








都 表示 为 相似 
个 无 效 的 序列 。 








y= 


的 单词 替换 为 一 





的 向 量 。 
序列 “ 








AE 

















E 1E er 


的 向 量 肯 定 不 


同 。 





将 


通过 对 有 效 标 记 序 列 分 类 的 学 习 ， 


= 个 党 是 


语料库 9 


一 个 正 向 实例 序列 

















第 














随机 单词 替换 


多 一 个 组 件 
二 个 组 件 是 一 个 用 于 预测 
一 个 组 件 的 参数 随机 初始 化 ， 并 随 着 分 类 器 的 i 
如 相近 的 单词 可 
cat is grumpy” 和 “the small kitten is grumpy” 都 是 有 效 序列 , 模型 五 
一 个 有 效 序列 中 的 单词 替 
the small cat was grumpy” 和 和 “ 


词 不 is 如 果 分 类 器 把 后 者 分 类 为 无 效 序列 ， 导 





E 向 实例 序列 中 的 单词 产生 ， 产 生 的 
的 例子 是 the Duke basketball player floped。 














er potato 。 


本 质 上 是 词 向 量 函 数 ， 提 供 一 个 标记 ， 它 
5 个 向 量 是 否 表 示 一 个 有 效 标记 序列 的 二 
| 练 来 进行 更 新 。 将 一 个 有 
产 出 一 个 有 效 的 序列 。 如 果 “the small 
可 能 会 把 “cat” 和 “kitten” 
换 为 一 个 不 相关 的 单词 可 能 会 产 出 一 
‘the small sandwich was grumpy” H 
BAAN “cat” Fil “sandwich” 


























aI 
能 会 


























相似 癌 量 的 词 问 量 函数 。 表示 同义词 (例如 “small” 禾 




















模型 E 
I“ tiny”) 以 及 同等 单词 (例如 “UNC” 
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和 “Duke”) 的 向 量 应 该 相似 。 而 表示 反义词 (例如 “big” 和 “small”) 的 向 量 ， 应 该 








在 一 个 或 者 很 少 的 几 个 维度 上 类 似 。 
类 似 的 ， 表 示 上 位 词 和 它们 的 下 位 词 〈 例 如 “color” 和 “blue”， 或 者 “furniture” 和 
“chair”) 的 向 量 ， 应 该 只 在 儿 个 很 少 的 维度 上 有 差异 。 


考虑 一 个 包含 文档 “the dog was happy” 的 语料库 。 假 设 这 个 语料库 的 单词 不 包含 标 


记 “puppy” RÆ “sad”. MALEN 
的 语料库 上 训练 的 情感 分 析 模型 将 无 力 处 理 ， 而 一 个 在 词 向 量 上 训练 的 模型 则 更 具备 有 
效 的 泛 化 能 力 。 
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7N 









































“the dog was sad” 这 样 的 句子 时 ， 一 个 在 用 词 包 表 示 



























































让 我 们 来 检查 一 些 词 向 量 。 在 一 个 大 型 语料库 上 训练 一 个 如 示例 中 的 序列 分 类 器 将 耗 












































量 的 计算 能 力 ， 但 是 产 出 的 词 向 量 可 以 运用 到 许多 领域 。 正 因 如 此 ， 我 们 经 常会 使 




























































































单词 的 300 维 向量 。 我 们 也 将 使 用 Python Æ gensim 来 检查 模型 ， 衡 量 单词 的 相似 度 ， 
完成 类 比 。 在 后 面 的 章节 中 我 们 将 使 用 这 些 表示 法 作为 特征 向 量 ， 如 代码 4.16 所 示 。 
































代码 4.16 
In[l]: 
See https://radimrehurek.com/gensim/install.html for gensim 
installatio instructions 

Download and gunzip the word2vec embeddings from 


ogleNews-vectors-negative300.bin.gz 








The 1.5GB compressed file decompresses to 3.4GB. 


import gensim 








The model is large; >= 8GB of RAM is required 


model = gensim.models.KeyedVectors.load_word2vec_format ('./GoogleNews- 


vectors- negative300.bin', binary=True) 


# Let's inspect the embedding for "cat" 





mbedding = model.word vec('cat') 


print ("Dimensions: Ss" % embedding. shape) 
print (embedding) 


# Out [2]: 

Dimensions: 300 

[ 0.0123291 0.20410156 -0.28515625 0.21679688 0.11816406 0.08300781 
0.04980469 -0.00952148 0.22070312 -0.12597656 0.08056641 -0.5859375 





训练 好 的 词 向 量 。 在 本 节 中 我 们 将 使 用 在 谷歌 新 闻 语 料 库 上 训练 过 的 word2vec 词 
该 语料库 包含 超过 1000 亿 个 单词 ， 同 时 word2vec 词 问 量 包含 针对 超过 300 万 个 英 i 








< ae 














https://github.com/mmihaltz/word2vec-GoogleNews-vectors/blob/master/Go 
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-0.00445557 -0.296875 -0.01312256 -0.08349609 0.05053711 0.15136719 
-0.44921875 -0.0135498 0.21484375 -0.14746094 0.22460938 -0.125 
-0.09716797 0.24902344 -0.2890625 0.36523438 0.41210938 -0.0859375 
-0.07861328 -0.19726562 -0.09082031 -0.14160156 -0.10253906 0.13085938 
-0.00346375 0.07226562 0.04418945 0.34570312 0.07470703 -0.11230469 
0.06738281 0.11230469 0.01977539 -0.12353516 0.20996094 -0.07226562 
-0.02783203 0.05541992 -0.33398438 0.08544922 0.34375 0.13964844 
0.04931641 -0.13476562 0.16308594 -0.37304688 0.39648438 0.10693359 
0.22167969 0.21289062 -0.08984375 0.20703125 0.08935547 -0.08251953 
0.05957031 0.10205078 -0.19238281 -0.09082031 0.4921875 0.03955078 
-0.07080078 -0.0019989 -0.23046875 0.25585938 0.08984375 -0.10644531 
0.00105286 -0.05883789 0.05102539 -0.0291748 0.19335938 -0.14160156 
-0.33398438 0.08154297 -0.27539062 0.10058594 -0.10449219 -0.12353516 
-0.140625 0.03491211 -0.11767578 -0.1796875 -0.21484375 -0.23828125 
0.08447266 -0.07519531 -0.25976562 -0.21289062 -0.22363281 -0.09716797 
0.11572266 0.15429688 0.07373047 -0.27539062 0.14257812 -0.0201416 
0.10009766 -0.19042969 -0.09375 0.14160156 0.17089844 0.3125 
-0.16699219 -0.08691406 -0.05004883 -0.24902344 -0.20800781 -0.09423828 
-0.12255859 -0.09472656 -0.390625 -0.06640625 -0.31640625 0.10986328 
-0.00156403 0.04345703 0.15625 -0.18945312 -0.03491211 0.03393555 
-0.14453125 0.01611328 -0.14160156 -0.02392578 0.01501465 0.07568359 








0.10742188 0.12695312 0.10693359 -0.01184082 -0.24023438 0.0291748 
0.16210938 0.19921875 -0.28125 0.16699219 -0.11621094 -0.25585938 
0.38671875 -0.06640625 -0.4609375 -0.06176758 -0.14453125 -0.11621094 
0.05688477 0.03588867 -0.10693359 0.18847656 -0.16699219 -0.01794434 
0.10986328 -0.12353516 -0.16308594 -0.14453125 0.12890625 0.11523438 
0.13671875 0.05688477 -0.08105469 -0.06152344 -0.06689453 0.27929688 


-0.19628906 0.07226562 0.12304688 -0.20996094 -0.22070312 0.21386719 
-0.1484375 -0.05932617 0.05224609 0.06445312 -0.02636719 0.13183594 
0.19433594 0.27148438 0.18652344 0.140625 0.06542969 -0.14453125 


5 
6 
3 
0.05029297 0.08837891 0.12255859 0.26757812 0.0534668 -0.32226562 
0 
1 
8 








-0.20703125 0.18164062 0.04418945 -0.22167969 -0.13769531 -0.04174805 
-0.00286865 0.04077148 0.07275391 -0.08300781 0.08398438 -0.3359375 
-0.40039062 0.01757812 -0.18652344 -0.0480957 -0.19140625 0.10107422 
0.09277344 -0.30664062 -0.19921875 -0.0168457 0.12207031 0.14648438 
-0.12890625 -0.23535156 -0.05371094 -0.06640625 0.06884766 -0.03637695 
0.2109375 -0.06005859 0.19335938 0.05151367 -0.05322266 0.02893066 
-0.27539062 0.08447266 0.328125 0.01818848 0.01495361 0.04711914 
0.37695312 -0.21875 -0.03393555 0.01116943 0.36914062 0.02160645 
0.03466797 0.07275391 0.16015625 -0.16503906 -0.296875 0.15039062 
-0.29101562 0.13964844 0.00448608 0.171875 -0.21972656 0.09326172 
-0.19042969 0.01599121 -0.09228516 0.15722656 -0.14160156 -0.0534668 
0.03613281 0.23632812 -0.15136719 -0.00689697 -0.27148438 -0.07128906 
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-0.16503906 0.18457031 -0.08398438 0.18554688 0.11669922 0.02758789 
-0.04760742 0.17871094 0.06542969 -0.03540039 0.22949219 0.02697754 
-0.09765625 0.26953125 0.08349609 -0.13085938 -0.10107422 -0.00738525 
0.07128906 0.14941406 -0.20605469 0.18066406 -0.15820312 0.05932617 
0.28710938 -0.04663086 0.15136719 0.4921875 -0.27539062 0.05615234] 


# In[2]: 

# The vectors for semantically similar words are more similar than the 
vectors for semantically dissimilar words 

print (model.similarity('cat', 'dog')) 

print (model.similarity('cat', 'sandwich") ) 


# Out[2]: 
0.760945708978 
0.172112036738 


In[3]: 
Puppy is to cat as kitten is to... 





print (model.most_similar(positive=['puppy', 'cat'], negative=['kitten'], 
topn=1) ) 


Out [3]: 
(u'dog', 0.7762665152549744) ] 


In[4]: 
Palette is to painter as saddle is to... 








for i in model.most_similar(positive=['saddle', 'painter'], negative= 





['palette'], topn=3): 
print (i) 


# Out[4]: 

(u'saddles', 0.5282258987426758) 
(u'horseman', 0.5179383158683777) 
(u'jockey', 0.48861297965049744) 
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计算 视觉 是 对 处 理 和 理解 图 像 计算 构件 的 研究 和 设计 。 这 些 构 件 有 时 会 使 用 机 器 学 习 ， 
对 计算 视觉 的 概述 远 远 超出 了 本 书 的 范围 ， 但 是 在 本 节 内 容 中 ， 我 们 将 审阅 一 些 在 计算 视 
觉 中 用 于 机 器 学 习 图 像 表 示 的 基本 技巧 。 
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4.4.1 从 像素 强度 中 提取 特征 


一 幅 数字 图 像 经 常 是 光栅 ， 或 者 将 颜色 映射 到 网 格 坐标 的 像素 映射 。 也 就 是 说 ， 一 幅 
图 像 可 以 被 视 为 一 个 矩阵 ， 其 中 每 一 个 元 素 都 表示 一 种 颜色 。 一 种 图 像 表示 的 基本 技巧 是 
通过 将 矩阵 的 行 拼接 成 一 个 向 量 来 构造 。 光 学 字符 辨识 (OCR ) 是 一 个 典型 的 机 器 学 习 问 
题 。 让 我 们 使 用 这 种 技巧 创建 基本 特征 表示 ,其 可 用 于 一 个 OCR 应 用 中 识别 以 字符 分 隔 形 
式 的 手写 数字 。 

scikit-learn 类 库 中 的 digits 数据 集 包 含 超过 1700 个 0~9 之 间 的 手写 数字 的 灰 度 岁 片 。 
每 张 图 片 一 般 包含 8 个 像素 。 每 个 像素 使 用 0 一 16 之 间 的 强度 值 来 表示 ， 白 色 是 强度 最 强 的 
表示 为 0， 黑 色 是 强度 最 弱 的 表示 为 16。 图 4.1 是 一 张 该 数据 集中 的 手写 数字 图 片 。 我 们 现 
在 通过 把 该 图 片 的 矩阵 改造 成 一 个 64 维 的 向 量 ， 为 图 片 创建 一 个 特征 向 量 ， 如 代码 4.17 
所 示 。 






































































































































代码 4.17 
# In[1]: 
from sklearn import datasets 


digits = datasets.load_ digits () 

print ('Digit: %s' % digits.target[0]) 

print (digits.images[0]) 

print ('Feature vector:\n %s' % digits.images[0].reshape(-1, 64) ) 
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些 基 本 任务 来 说 是 有 效 的 ， 例 如 识别 打印 字符 。 然 而 ， 记 录 图 





# Out[1]: 
Digit: 0 
[ 0. 0. Se Ls 9. 1 
O. Ors ， Eger RO- 5 
O. Je h LD 2. Ore Lt 
O. 45. 12: 0. O. 8 
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O. 2. LAY Be) (LO “12 
O. 0. 6° 13). LOr 0 
Feature vector: 
[ 0. Dar, 13% Ts 
0. 0. 3 P5 2. 
8. 8. Ois Dis 
Its 0. Ta 2% 0. 
È 0. 6. 13. 10; 0 . 
这 种 表示 方法 对 于 
像 中 的 每 个 像素 的 强度 会 产 出 巨大 的 特征 向 
将 会 需要 一 个 10000 维 的 








维度 的 向 量 。 和 我 们 之 前 
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量 。 一 张 小 型 100 像素 x 100 像素 的 灰 度 图 片 














向 量 ， 一 张 1920 像素 x 1080 像素 的 灰 度 图 片 需要 一 个 2073600 
创建 的 tf-idf 特征 向量 不 同 ， 在 大 多 数 问题 中 ， 这 些 向 量 都 不 是 






































PA a NY o 
将 产 出 对 








别 出 相 同 
感 。 由 于 这 些 原 
在 计算 视觉 应 用 经 
深度 学 习 这 样 的 技巧 





























种 情况 。 














YA Be 


要 使 用 可 以 运 





rf 而 











空间 复杂 度 并 不 是 这 种 表示 法 唯一 
图 片 缩放 、 旋 转 和 位 移 变 化 非常 
移 几 个 像素 ， 放 大 或 者 旋转 几 度 ， 

















的 缺点 ， 从 像素 尤其 是 特定 位 置 的 像素 学 习 








敏感 的 模型 。 如 果 我 们 把 数字 在 任何 方向 上 平 
一 个 在 我 们 的 基本 特征 表示 上 训练 的 模型 可 能 无 法 识 
































的 数字 0。 此 外 ， 从 像素 强度 学 习 具 有 上 自身 的 问题 











因为 模型 对 光照 的 变化 很 敏 























因 ， 这 种 表示 法 对 于 涉及 照片 或 其 他 自然 图 像 的 任务 并 不 十 分 有 效 。 现 
] 于 许多 不 同 问 题 的 特征 提取 方法 ， 或 者 使 用 例如 


















































动 学 




















习 特 征 而 无 需 进行 监督 学 习 。 我 们 将 在 下 一 节 内 容 中 关注 后 











4.4.2 ”使 用 卷 积 神经 网 络 激活 项 作为 特征 


近 些 年 来 ， 卷 积 神经 网 络 (CNN) 已 经 成 功 运用 到 各 式 各 样 的 任务 中 ， 包 括 计算 视觉 



































任务 ， 如 目标 识别 和 语义 切 分 分 。 在 本 节 内 容 中 ， 
后 的 一 个 章节 中 
用 于 深度 学 习 。 

在 词 问 量 

















我 们 不 会 讨论 CNN 的 细节 。 虽 然 我 们 在 之 
































会 讨论 像 多 层 感 知 机 这 样 的 一 般 神经 网 络 ， 然 而 scikit-learn 类 库 却 不 适合 











aH, 我 们 关注 CNN 只 是 想 月 





ag 








其 提取 特征 用 于 其 他 模型 。 我 们 将 使 用 Caffe 
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这 个 流行 的 深度 学 习 类 库 的 Python 绑 定 ， 以 及 一 个 叫 作 CaffeNet 的 预 训练 网 络 从 图 片 中 
提取 特征 。 和 词 向 量 模型 一 样 ， 我 们 将 使 用 由 男 一 个 任务 训练 的 模型 创建 的 特征 表示 。 在 
本 示例 中 ,CaffesNet 被 训练 来 识别 1000 个 对 象 类 , 这 些 类 包括 动物 、 交通 工具 和 日 常用 品 ， 
完整 的 对 象 类 列表 可 以 查看 http://image-net.org/challenges/LSVRC/2014/browse-synsets。 我 们 
将 使 用 CaffeNet 网 络 第 二 层 到 最 后 一 层 的 激活 项 或 者 输出 项 ,这 个 4096 维 的 向 量 在 一 个 度 
量 空间 中 表示 图 片 ， 并 且 能 在 图 片 平移 、 旋 转 以 及 亮度 变化 的 情况 下 保持 不 变 。 相 似 的 向 
量 所 表示 的 图 片 应 该 是 语义 相似 的 ， 即 使 它们 的 像素 强度 有 所 差别 。 

可 以 通过 http://caffe.berkeleyvision.org/installation.html 链接 查看 Caffe 在 Windows、 
Mac OS 和 Ubuntu 系统 下 的 安装 说 明 。 在 这 个 例子 中 我 们 同时 需要 Caffe 和 它 的 Python 类 
Æ. JE] caffe/python 目录 的 路 径 添 加 你 的 PYTHONPATH 环境 变量 中 ， 按 照 
http://caffe.berkeleyvision.org/gathered.examples/imagenet.html 中 的 说 明 下 载 CaffeNet. 42% F 
来 ， 让 我 们 从 图 4.2 中 提取 特征 。 


















































图 4.2 


代码 4.18 加 载 了 模型 ， 对 图 片 进 行 了 预 处 理 ， 并 将 输出 项 通过 网 络 向 前 传播 。 
代码 4.18 


# In[1]: 

import os 

import caffe 

import numpy as np 

CAFFE DIR = '/your/path/to/caffe' 
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RGB 颜色 
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M 





EAN PATH 





os.path.join(CAFFE DIR, 


"python/caffe/imagenet/ilsvre 2012 mean.npy') 


PROTOTXT PATH 


"models/bvlc_ reference caffenet/d 
EL PATH 
'models/bvlc_ reference caffenet/bvlc_ reference caff 





CAFFEMOD 
































os.path.join (CAFFE DIR, 








os.path.join(CAFFE DIR, 





ploy.prototxt') 























中 


EST) 

































































net.caffemodel') 


均值 ， 并 将 通道 调换 到 


IMAGE PATH = 'data/zipper-1.jpg' 
初始 化 网 络 
net = caffe.Net (PROTOTXT PATH, CAFFEMODEL PATH, caffe. 
配置 一 个 转换 器 ， 对 输入 图 片 值 缩 放 到 [0, 1] ， 再 减 去 每 个 通道 像素 的 3 
空间 
测试 图 片 需要 和 训练 图 片 做 相同 的 处 理 
transformer = caffe.io.Transformer({'data': 
net.blobs['data'].data.shape}) 
transformer.set_transpose('data', (2, 0, 1)) 
transformer.set_mean('data', np.load(MEAN PATH) .mean (1) .mean (1)) 


transformer. 


transformer. 








加 载 一 张 图 片 
net.blobs['da 


net.blobs['da 











caffe.io.load_image 


set_raw_scale('data', 
set channel swap('data', 


255) 


ta'] .reshape (1, 3, 227, 227) 


ta'].data[0] 
(IMAGE PATH) ) 








# 向 前 传播 ， 并 打印 出 "fc7" 层 的 激活 项 


net .forward () 


features ne 





print (features. shape) 


print (features) 


# Out[1]: 
(4096, ) 

[ 0. 

] 


小 结 


OL IISAZ OVS: nth 


(2,1,0)) 


t.blobs['fc7'].data.reshape(-1,) 





transformer.preprocess('data', 





在 本 章 中 ， 我 们 讨论 了 特征 提取 ， 学 习 了 一 些 创建 能 用 于 机 器 学 习 算 法 的 数据 表示 


法 的 技巧 。 首 先 ， 我 们 使 
别 解释 变量 凶 











mi 


| 建 特征 。 














| one-hot 编 




















THF scikit-learn 类 库 的 DictVectorizer 类 从 类 


我 们 学 习 了 数据 标准 化 以 确保 估计 器 能 从 所 有 的 特征 








学 习 并 尽 





快 收敛。 


ER, 我们 从 机 器 学 习 问 题 中 使 用 的 一 种 最 党 
了 词 袋 模型 的 几 种 变 体 ， 它 抛弃 了 所 有 的 语法 ， 只 对 一 个 文档 
| CountVectorizer 类 创建 了 基本 的 二 元 项 目 词 频 。 





码 。 我 们 首先 使 









































的 























过 滤 停 用 词 和 词 干 标示 处 理 文本 ， 


度 的 文档 做 标准 化 处 到 














来 表示 单词 。 
最 后 
接着 我们 使 
的 平移 、 旋 转 、 
中 使 用 这 些 特 和 














， 我 们 从 
一 














个 预 训练 的 CNN 


的 tfidf NE. RA 


图 像 中 提取 特征 。 首 先 使 有 




















并 将 特征 向 量 中 的 词 频 蔡 换 为 能 

















门 接着 还 讨 


论 了 词 向 量 ， 其 使 








日 像素 强度 的 




















光照 变化 无 关 ， 
提取 技巧 。 


























RUIZ Hh R 


AE GREER Aes FB A 
网 络 的 激活 项 目 作为 低 维度 的 特征 表示 。 这 些 表 示 和 图 
并 允许 模型 进行 更 有 
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L 类 型 (文本 ) 中 提取 特征 。 我 们 检验 


标示 出 现 的 频率 进行 编 
我 们 学 习 了 通过 
用 词 和 对 不 同 长 
向 量 而 不 是 标量 


AE 是 ae 
AGT As 
































F, 
像 
门将 在 后 续 章 节 的 例子 











第 5 章 
从 简单 线性 回归 到 多 元 线性 回归 














在 第 2 章 中 ， 我 们 使 用 简单 线性 回归 对 一 个 解释 变量 和 一 个 连续 响应 变量 之 间 的 关系 
进行 建 模 ， 并 使 用 披萨 的 直径 去 预测 其 价格 。 在 第 3 章 中 ， 我 们 介绍 了 KNN 并 使 用 多 于 
一 个 解释 变量 去 进行 预测 的 分 类 器 和 回归 器 。 在 本 章 中 ， 我 们 将 讨论 多 元 线性 回归 ， 它 是 
一 种 将 一 个 连续 响应 变量 在 多 个 特征 上 进行 回归 的 简单 线性 回归 泛 化 形式 。 我 们 首先 将 解 
出 能 将 RSS 代价 函数 极 小 化 的 参数 值 。 接 着 介绍 一 种 能 预 估 多 种 代价 函数 极 小 值 参数 值 的 
强大 的 学 习 算法 ， 称 为 梯度 下 降 法 。 我 们 还 将 讨论 为 一 种 多 元 线性 回归 的 特殊 形式 一 一 多 
项 式 回归 ， 并 了 解 增加 模型 的 复杂 度 将 增 大 模型 泛 化 失败 风险 的 原因 。 


5.1 多 元 线性 回归 




































































































































































之 前 我 们 训练 并 评价 了 一 个 用 于 预 估 披 萨 价 格 的 模型 。 尽 管 你 非常 急切 地 想 要 向 朋友 、 
同事 介绍 这 个 披 陕 价格 预测 器 ， 你 还 是 很 担心 这 个 模型 并 不 完美 的 判定 系数 和 其 预测 结果 
会 给 你 带 来 的 尴 众 场面 。 你 应 该 如 何 提升 这 个 模型 呢 ? 
回顾 一 下 你 个 人 吃 披萨 的 经 验 ， 从 直觉 上 你 可 能 感到 披萨 的 其 他 特征 也 和 其 价格 相关 
联 。 例 如 ， 披 萨 的 价格 经 常 由 披萨 顶部 配料 的 数量 决定 。 幸 运 的 是 ， 你 的 披萨 手册 详细 地 
描述 了 其 顶部 配料 ， 让 我 们 增加 顶部 配料 的 数量 作为 第 2 个 解释 变量 。 我 们 在 此 不 能 使 用 
简单 线性 回归 进行 处 理 ， 但 是 我 们 可 以 使 用 一 种 称 为 多 元 线性 回归 的 简单 线性 回归 的 泛 化 
形式 ， 它 可 以 使 用 多 个 解释 变量 。 多 元 线性 回归 模型 如 公式 5.1 所 示 : 

y=4a+ Bx + fx, + + BX, (公式 5.1) 

和 简单 线性 回归 使 用 单一 解释 变量 和 单一 系数 不 同 ， 多 元 线性 回归 使 用 任意 数量 的 解 

释 变 量 ， 每 个 解释 变量 对 应 一 个 系数 。 用 于 线性 回归 的 模型 也 可 以 被 表示 为 向 量 计 法 ， 如 
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公式 5.2 所 示 : 
Y=XB (公式 5.2) 
对 于 简单 线性 回归 ， 向 量 计 法 等 同 于 公式 5.3: 
[Yy] fa+pBx| fl X, 
le) Pe ela hs (公式 5.3) 
ARET ARE. 
7 是 一 个 由 训练 实例 响应 变量 组 成 的 列 向 量 。B8 EARS RAR ARA E X 
有 时 也 被 称 为 设计 和 矩阵， 是 一 个 由 训练 实例 解释 变量 组 成 的 m x n 的 矩阵 。m 是 训练 实例 












































































































































的 数量 , 是 特征 的 数量 。 如 表 5.1 所 示 ， 我 们 将 披萨 顶部 配料 数量 包含 进来 更 新 披萨 训练 
数据 。 
表 5.1 
训练 实例 直径 (单位 ， 英寸 ) 顶部 配料 数量 价格 (单位 ， 美 元) 
1 6 2 7 
2 8 1 9 
3 10 0 13 
4 14 2 17.5 
5 18 0 18 
我 们 也 需要 更 新 测试 数据 来 包含 第 2 个 解释 变量 ， 如 表 5.2 所 示 。 
表 5.2 
测试 实例 直径 (单位 ， 英寸 ) 顶部 配料 数量 价格 (单位 ， 美元) 
1 8 2 11 
2 9 0 8.5 
3 11 2 15 
4 16 2 18 
5 12 0 11 
我 们 的 学 习 算 法 必须 估计 3 个 参数 的 值 : 两 个 特征 对 应 的 系数 和 一 个 截断 项 。 尽 管 有 
人 可 能 会 想 要 通过 在 等 式 的 每 一 边 都 除 以 来 解 出 8 值 ， 但 是 我 们 回想 一 下 会 发 现 直 接 除 












































以 一 个 矩阵 是 不 可 行 的 。 然 而 ， 除 以 一 








个 整数 等 同 于 乘 以 同一 个 整数 的 倒数 ， 我 们 可 





























过 乘 以 矩阵 蕊 的 逆 和 矩阵 来 避免 矩阵 除法 。 








55 Wp De H, 
有 要 注意 的 是 只 

















以 通 


有 方 阵 可 以 求 逆 。 KER X FFAS 
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定 是 方 阵 ， 而 我 们 也 不 能 用 特征 的 数量 来 限制 训练 实例 的 数量 。 为 了 避 开 这 个 限制 ， 我 们 
需要 将 碟 乘 以 其 转 置 来 产 出 一 个 可 以 求 道 的 方 阵 。 一 个 和 矩阵 的 转 置 是 将 和 矩阵 的 行 变 为 列 、 
将 列 变 为 行 ， 并 用 一 个 上 角 标 工 表 示 ， 如 公式 5.4 所 示 : 
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3 到 多 元 线性 回归 









































四 









































D 3" oe 
| | = (公式 5.4) 
3 6 


回顾 一 下 ， 我 们 的 模型 如 下 面 公 式 5.5 tas: 
Y= Xp (公式 5.5) 
我 们 可 以 从 训练 数据 中 获得 了 和 蕊 的 值 。 我 们 需要 找 出 能 将 代价 函数 极 小 化 的 Z 值 ， 
并 由 公式 5.6 解 出 8 值 : 









































B=(X'X) XY (公式 5.6) 


我 们 可 以 使 用 NumPy 库 解 出 8 值 ， 如 代码 5.1 所 示 。 





代码 5.1 

# In[1]: 

from numpy.linalg import inv 
from numpy import dot, transpose 


X= [[1, 6, 2], [1, 8, 1], [1, 10, 0], [1, 14, 2], [1, 18, 0]] 
y= [071 LTS. (225), [281] 
print (dot (inv (dot (transpose (X), X)), dot(transpose(X), y))) 


# Out[1]: 

{[[ 1.1875 
[ 1.01041667 
[ 0.39583333 


NumPy 库 也 提供 了 一 个 最 小 二 乘 函数 ， 它 能 被 用 来 更 简洁 地 解 出 参数 值 ， 如 代码 5.2 
所 示 。 

















代码 5.2 
# In[1]: 
from numpy.linalg import lstsq 


X= [[1, 6, 2], [1, 8, 1], [1, 10, 0], [1, 14, 2], [1, 18, 0]] 
[[7], [9], [13], [17.5], [18]] 


print (lstsq (Xx, y)10]) 


# Out[1]: 

{[ 1.1875 ] 
[ 1.01041667] 
E 0239583333)) J 

















我 们 使 用 第 2 个 解释 
型 比较 性 如 代码 5.3 所 示 。 




















H gb 
月 E， 





代码 5.3 
# In[1]: 


from 


[Gy 2] (E85. Ty 
[7], [9], [13], 
| = LinearRegr 
fit(X, y) 
[[8, 2], 
Eiig- ES: 
predictions model 


[1 


ssio 








model. 
xX test 
y_test = 


0 


9, 
5], 





for i, 
print ('Predicted: % 


print ('R-squared: 


Out [ls 
ted: 
R-squared: 
ted: 
R-squared: 
ted: 
R-squared: 
ted: 
R-squared: 
ted: 
R-squared: 


10. 
77 
TOs 
77 
13% 
77 
18. 
77 
13% 
77 


Predic 0625], 
0. 
Predic 28125], 
0. 
Predic 09375], 
0. 
Predic 1458333 


Ox 











Predic 3125], 


0. 
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1 
们 将 讨论 为 什么 在 8 
在 数据 的 多 个 划分 上 
我 们 接受 多 元 线性 回 
性 能 够 解释 其 价格 。 在 真实 





















































测试 集 上 
训练 和 测试 数据 来 更 
归 模 型 性 能 


e nH 


世界 中 ,倘若 这 些 解 释 变 量 和 响 访 


变量 来 更 六 


0, 


[17.5 


n() 


l; 


LIS 
.predict (X_test) 


prediction in enumerate (predictions): 


S, 


SZE &% 


Target: 





3], 


Target: 


Target: 


Target: 


评估 模型 





0], [14, 
, [18]] 


11, 2], 
, [18], 





Target: 


[11] 


Target: 


[11] 


Ly 
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2], 


Qat Q 
oS 5 


pry 
加 准确 


所 披萨 价格 预测 代码 ， 


[16, 
[11] ] 
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model.score(X test, 


[8.5] 


[15] 


[18] 


[18, 


2], 
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并 在 测试 集 上 和 简单 线性 





加 归 模 











sklearn.linear model import LinearRegression 


0]] 


(prediction, y test[i])) 


y_test) ) 


民明 显 ， 增 加 项 部 配料 数量 作为 解释 变量 提升 了 模型 的 性 能 。 在 后 面 的 章节 中 ， 我 
不 准确 的 模型 性 能 预 估 ， 
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以 及 如 何 通 i 















































角 实 优 于 简单 








地 估 











生 回归 模型 这 个 事实 。 披萨 还 有 





计 模 型 的 性 能 。 然而， 就 目前 而 
很 多 属 


ER ARS 
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不 是 线 局 





MEJ 
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么 样 呢 ? CER ATA, 我 们 将 检验 一 种 能 用 于 对 非 线 性 关系 建 模 的 多 元 线性 回归 的 特殊 
形式 。 


5.2 多项式 回归 



































在 前 面 的 例子 中 ， 我 们 假设 解释 变量 和 响应 变量 之 间 的 真实 关系 是 线性 的 。 在 本 节 内 
容 中 ， 我 们 将 使 用 多 项 式 回 归 一 一 一 种 多 元 线性 回归 的 特殊 形式 ， 用 于 对 响应 变量 和 多 项 
式 特 征 项 之 间 的 关系 进行 建 模 。 真 实 世 界 的 曲线 关系 通过 对 特征 做 变换 获得 ， 而 这 些 特 征 
与 多 元 线性 回归 的 特征 一 致 。 在 本 节 内 容 中 ， 为 了 便于 可 视 化 ， 我 们 依然 只 使 用 披萨 直径 
作为 唯一 解释 变量 。 我 们 使 用 下 面 的 数据 集 比 较 线性 回归 和 多 项 式 回 归 ， 如 表 5.3 和 表 5.4 
INAS o 


















































































































































































































































表 5.3 
训练 实例 直径 〈 单 位 ; 英寸) 价格 (单位 ， 美元) 
1 6 7 
2 8 9 
3 10 13 
4 14 17.5 
5 18 18 
表 5.4 
测试 实例 直径 (单位 英寸) 价格 (单位 ， 美元) 
1 6 7 
2 8 9 
3 10 13 
4 14 17.5 

















二 次 回归 ， 或 者 二 阶 多 项 式 回归 ， 





paf 





公式 5.7 所 示 : 











y=a+ßx+ Bx (公式 5.7) 

















注意 到 我 们 仅仅 上 只 用 了 一 个 解释 变量 的 一 个 特征 ， 但 是 模型 现在 有 3 个 参数 项 而 不 是 
ie 解释 变量 进行 了 变换 ， 并 作为 第 3 个 项 目 增加 到 模型 来 捕获 曲线 关系 。 同 时 也 需要 
注意 到 在 向 量 计 法 下 多 项 式 回 归 的 方程 和 多 元 线性 回归 的 方程 一 致 。 
PolynomialFeatures 转换 器 可 以 用 于 为 一 个 特征 表示 增加 多 项 式 特 征 。 我 们 使 用 这 些 
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特征 来 拟 合 一 个 模型 ， 并 将 其 和 简单 线性 回归 模型 做 比较 ， 如 代码 5.4 所 示 。 




















代码 5.4 

# In[1]: 

import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.linear_model import LinearRegression 


from sklearn.preprocessing import PolynomialFeatures 


X train = [[6], [8], [10], [14], [18]] 
y_train = [[7], [9], [13], [17.5], [18]] 
X_test = [[6], [8], [11], [16]] 

y_test = [[8], [12], [15], [18]] 


regressor = LinearRegression() 





regressor.fit(X train, y train) 





xx = np.linspace(0, 26, 100) 

yy = regressor.predict (xx.reshape (xx.shape[0], 1)) 
plt.plot(xx, yy) 

quadratic featurizer = PolynomialFeatures (degree=2) 





X train quadratic = quadratic featurizer.fit_transform(X_ train) 

X test quadratic = quadratic featurizer.transform(X test) 

regressor quadratic = LinearRegression() 

regressor quadratic.fit(X_train_quadratic, y train) 

xx quadratic = quadratic featurizer.transform(xx.reshape(xx.shape[0], 1)) 
plt.plot(xx, regressor quadratic.predict (xx quadratic), c='r', linestyle 


plt.title('Pizza price regressed on diameter") 
plt.xlabel('Diameter in inches') 
plt.ylabel('Price in dollars") 

plt.axis([0, 25, 0, 251) 

plt.grid(True) 

plt.scatter(X train, y train) 








plt.show() 
print (X train) 
print (X train quadratic) 


t ( 
print (X_test) 
t ( 








print (X_test_quadratic) 

print ('Simple linear regression r-squared', regressor.score(X test, 
y_test)) 

print ("Quadratic regression r-squared', 


regressor quadratic.score(X test quadratic, y test)) 





# Out[1]: 
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[[6], [8], [10], [14], [18] 
[ Ly 6 . 36. 
8. 64. 
10. 100. 
14. 196. 
18. 324.1] 
[[6], [8], [11], [16]] 
[ 1 6. 36; 
8. 64. 
Tis. T21. 
16. 256.1) 
('Simple linear regression r-squared' 
("Quadratic regression r-squared', 0. 


如 图 5.1 Bras, 
显 二 元 回归 模型 更 加 


简单 线性 回 











拟 合 训练 数据 。 


25 





20 


美元 ) 


15 


10 


价格 (单位 : 





0 4 L 1 


在 直径 上 的 披萨 价格 回归 


, 0.80972679770766498) 
86754436563450898) 














归 模 型 使 用 实 线 表示 ， 二 元 回归 模型 使 用 虚线 表示 ， 很 明 








1 1 





10 


15 20 25 


Bi (iu: 英寸) 


图 5.1 














简单 线性 回归 模型 的 决定 系数 是 0.81， 二 次 








器 归 模型 的 决定 系数 被 提升 到 了 0.87。 然 











而 
模型 和 三 次 


次 回归 和 三 次 回归 最 为 常见 ， 我 们 可 以 增加 
加 归 模 型 。 














任何 阶 多 项 式 。 图 5.2 绘制 出 了 二 次 回归 











美元 ) 


价格 (单位: 


25 
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披萨 价格 在 直径 上 的 回归 





10 15 20 25 


直径 (单位 : 英寸 ) 
图 5.2 











现在 我 们 来 尝试 更 高 阶 的 多 项 式 。 图 5.3 绘制 出 了 一 个 9- 阶 多 项 式 的 回归 曲线 。 


美元 ) 


价格 (单位 : 


25 


=) 
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be 
oO 








披萨 价格 在 直径 上 的 回归 





10 15 20 25 
直径 (单位: 英寸 ) 
图 5.3 
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模型 几乎 完全 准确 地 拟 合 了 训练 数据 ! 然 而 , 模型 在 测试 数据 集 上 的 决定 系数 为 -0.09。 
， 却 不 能 逼近 真实 的 关系 ， 这 个 




















我 们 已 经 了 解 到 一 个 及 其 复杂 模型 能 够 准确 拟 合 训练 数据 

















问题 称 为 过 拟 合 。 模 型 应 该 导出 一 个 由 输入 项 映射 到 输出 项 节 
对 训练 数据 的 输入 和 输出 产生 了 记忆 。 这 样 的 结果 就 是 


















































普遍 关系 ， 然 而 ， 模 型 已 经 
模型 在 测试 集合 上 性 


能 很 差 。 这 个 


模型 预测 一 个 16 英寸 的 披萨 价格 少 于 10 美元 ， 然 而 一 个 18 英寸 的 披萨 价格 却 超过 30 美 








元 。 这 个 模型 准确 地 拟 合 了 训练 数 














5.3 正则 化 








正则 化 是 一 个 能 用 于 防止 过 拟 合 的 技巧 的 集合 。 正 则 化 为 
一 个 对 抗 复杂 度 惩 罚 项 的 形式 。 奥 卡 姆 剃刀 理论 说 做 最 少 假定 的 假设 是 最 优 的 。 正 因 如 
此 ， 正 则 化 想 要 找到 最 简单 的 模型 来 解释 数据 。 

scikit-learn 类 库 提 供 了 几 个 正则 化 线性 回归 模型 。 岭 回 






























































中 ， 但 是 却 没 有 能 学 习 到 尺寸 和 价格 之 间 的 真实 关系 。 

















个 问题 增加 信息 ， 通 常 是 

















归 也 被 称 之 为 提 克 洛 夫 规范 化 ， 


可 以 惩罚 变 大 的 模型 参数 。 岭 回归 通过 增加 系数 的 二 范 数 来 修改 RSS 代价 函数 ， 如 公式 5.8 


所 示 : 




















n P 
RSS iage = YO, = x pY +4>, b; 
i=l j=l 











(公式 5.8) 


4 是 一 个 控制 惩罚 力度 的 超 参数 。 回 顾 第 3 章 , 超 参数 是 模型 控制 学 习 算法 如 何 学 习 的 
参数 。 随 着 4 的 增加 ， 征 罚 力度 也 增加 ， 代 价 函 数 的 值 也 增加 。 当 4 等 于 0 时 ， 岭 回归 等 于 











线性 回归 。 


























通过 对 代价 函数 增加 工 ! 范 数 来 惩罚 系数 ， 如 公式 5.9 所 示 : 








n P 
RSS asso = (0 -x BY +4>|8,| 
i=] j=l 





























scikit-learn 库 也 提供 了 最 小 绝对 收缩 和 选择 算 子 ( LASSO ) 的 一 种 实现 。LASSO 算法 





(公式 5.9) 





LASSO 回归 产 出 系数 的 参数 ， 大 多 数 系数 将 变 为 0， 模型 将 依赖 于 特 和 




































































最 后 ，scikit-learn 库 提供 了 弹性 网 正则 化 的 一 种 实现 ， 它 是 LASSO [A] 


EE 的 一 个 小 型 子 


集 。 与 之 相反 , 岭 回归 产 出 模型 的 大 多 数 参数 很 小 但 都 非 0。 当 解释 变量 相互 关联 时 , LASSO 
回归 将 一 个 变量 的 系数 向 0 进行 收缩 ， 岭 回归 则 将 更 一 致 地 对 系数 进行 收缩 。 











归 的 三 惩罚 项 











和 岭 回归 的 L? 惩罚 项 的 线 必 





EHS. Em, LASSO [Al 





殊 形式 ， 其 中 L RE L EAMES IS F 0。 





JARIR [E] 

















HAER 





性 网 方法 的 特 


5.4 应 用 线性 回归 
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我 们 已 经 通过 一 个 玩具 问题 学 习 了 线性 回归 模型 如 何 对 解释 变量 和 响应 变量 之 问 的 关 





























系 进 行 建 模 。 现 在 我 们 将 使 用 一 个 真实 数据 集 ， 并 将 线性 回 





























你 身 处 一 个 聚会 中 ， 并 且 希 望 喝 到 最 好 的 酒 。 你 可 以 向 朋友 寻求 推荐 ， 




















能 会 不 顾 酒 的 来 源 随便 喝 。 幸 运 的 是 ， 你 已 经 带 了 pH 试纸 











化 学 属性 。 但 是 毕竟 这 是 一 个 聚会 ， 





























本 身 的 物理 化 学 属性 来 预测 酒 的 质量 。 
加 州 大 学 机 器 学 习 库 的 酒 数 据 集 包 含 了 1599 HANA 












































pH 值 和 酒精 含量 。 每 种 酒 的 质量 由 真人 评价 来 打分 。 分 数 范围 









































[ 酒 





和 其 他 的 工具 来 测试 各 种 物理 
这 种 做 法 并 不 实用 ， 因 而 我 们 将 使 用 机 器 学 习 基 于 


归 运 用 到 一 个 重要 任务 。 假 设 





晶 是 你 怀疑 他 们 可 






































的 11 种 物理 化 学 属性 ， 包 括 
从 0 一 10, 0 代表 质量 最 差 ， 



































10 代表 质量 最 好 。 该 数据 集 可 以 从 https://archive.ics.uci.edu/ml/datasets/Wine 下 载 。 我 们 将 
把 该 问题 作为 一 个 回归 任务 来 解决 ， 并 在 一 个 或 多 个 物理 化 学 属性 上 回归 酒 的 质量 。 在 这 
个 问题 中 响应 变量 只 会 取 0 一 10 之 间 的 整数 ， 我 们 可 以 将 这 些 值 视 作 离散 值 ， 并 将 该 问题 
。 然 而 在 本 章 中 ， 我 们 将 假定 这 些 评分 都 是 连续 的 。 





























作为 一 个 多 类 别 分 类 问题 来 解决 
5.4.1 探索 数据 


训练 数据 包含 以 下 解释 变量 












































: 非 挥 发 性 酸 、 挥 发 特 
单 体 硫 、 总 二 氧化 硫 、 密 度 、pH 值 、 人 硫酸 盐 和 酒精 含量 。 性 
供 一 些 见解 ,对 设计 成 功 的 机 器 学 习 系统 来 说 相关 领域 的 专家 通常 很 重要 。 对 于 这 个 例子 ， 

























































































R PER PRMD KLM, 
Let 





[可 以 为 设计 模型 提 
































cu 

















没有 必要 去 解释 这 些 物理 化 学 属性 对 酒 质量 的 影响 ， 同 时 为 了 人 简单 起 见解 释 变量 的 单位 将 
会 被 省 略 。 让 我 们 来 检查 训练 数据 的 一 个 抽样 ， 如 表 5.5 所 示 。 



























































































































































表 5.5 
非 挥发 性 挥发 性 frie 剩余 糖 | 氧化 | 单 体 | 总 二 氧 密度 | pH ff 硫酸 酒精 质量 
酸 酸 分 物 硫 化 硫 盐 含量 
7.4 0.7 0 1.9 | 0.076 | 11 34 | 0.9978 | 3.51 | 0.56 | 9.45 5 
7.8 0.88 0 2.6 | 0.098 | 25 67 | 0.9968 | 3.2 | 0.68 9.8 5 
7.8 0.76 | 0.04 | 23 | 0.092 | 15 54 0.997 | 3.26 | 0.65 9.8 5 
11.2 0.28 | 0.56 1.9 | 0.075 | 17 60 0.998 | 3.16 | 0.58 9.8 6 
scikit-learn 的 目标 是 成 为 一 个 构建 机 器 学 习 系 统 的 工具 ， 和 它 的 包 相 比 ， 其 探索 数据 
的 能 力 相 对 较 弱 。 我 们 将 使 用 pandas 这 个 为 Python 编写 的 数据 分 析 类 库 来 从 数据 中 产 出 一 
些 描述 统计 项 目 。 我 们 将 使 用 这 些 统计 项 目 为 模型 形成 一 些 设 计 决 策 。pandas 类 库 将 及 语 
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言 的 一 些 概念 带 入 Python 中 ,例如 数据 框 这 种 
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ENS FS FET AY Bie AT o BEH] pandas 



































进行 数据 分 析 本 身 就 是 几 本 书 的 主题 ， 我 们 在 后 面 的 例子 中 只 会 使 用 一 些 基 本 方法 。 





























首先 , 我 们 将 加 载 数据 集 ， 并 复习 儿 个 针对 变量 的 基本 概括 统计 量 。 数 据 位 于 一 个 .csv 























文件 中 。 需 要 注意 的 是 ， 数 据 项 由 分 号 而 不 是 逗号 隔 开 ， 如 代码 5.5 所 示 。 


























代码 5.5 
# In[1]: 
import pandas as pd 


df = pd.read_csv('./winequality-red.csv', sep=';') 
df.describe () 



































Out [1] 
ie volatile acidity | citric acid | residual sugar | chlorides piri enna density pH sulphates alcohol quality 
count |1599.000000 /1599.000000 ]1599.000000 [1599.000000 |1599.000000 |1599. 000000 [1599.000000 ] 1599.000000 [1599.000000 [1599.000000 |1599. 000000 {1599.000000 
mean [8.319637 [0.527821 |0.270976 |2.538806 |0.087467 5.874922 |46.467792 |0.996747 [3.311113 |0.658149 |10.422986 [5.636023 
std 1.741096 |0.179060 |0.194801 |1.409928 [0.047065 0.460157 |32.895324 |0.001887 |0.154386 |0.169507 |1.065668 [0.807569 
min 4.600000 |0.120000 [0.000000 |0.900000 [0.012000 .000000 |6.000000 |0.990070 [2.740000 [0.330000 |8.400000 [3.000000 
25% 7.10000 0.390000 |0.090000 [1.900000 [0.070000 |7.000000 22.000000 0.995600 [3.210000 0.550000 |9.500000 [5.000000 
508 7.900000 |0.520000 [0.260000 + }2.200000 [0.079000 000000 |38.000000 [0.996750 }3.310000 |0.620000 }10.200000 6.000000 
15% 9.200000 |0.640000 [0.420000 |2.600000 [0.090000  |21.000000 [62.000000 [0.997835 |3.400000 0.730000 |11.100000 6.000000 
max 15.900000 |1.580000 [1.000000 |15.500000 [0.611000 72.000000 [289.000000 [1.003690 4.010000 |2.000000 }14.900000 8.000000 













































































pd.read csv() 方 法 是 一 种 能 方便 地 将 .csv 文件 加 载 到 一 个 数据 框 中 的 方法 。 














Dataframe.describe () 会 计算 数据 框 每 一 列 的 概括 统计 量 。 前 面 的 代码 示例 仅仅 展示 
了 数据 框 最 后 4 列 ee 需要 注意 quality 变量 的 概括 ， 大 多 数 酒 的 评分 都 是 5 
或 者 6。 将 数据 进行 可 视 化 可 以 帮助 我 们 发 现 响应 变量 和 解释 变量 之 间 是 否 存在 关系 。 我 





们 使 用 matplotlib 库 来 创建 一 些 散 点 图 ， 代 码 5.6 ry 
















































































图 5.4。 











Co 





代码 5.6 
# In[2]: 
import matplotlib.pylab as plt 


plt.scatter(df['alcohol'], df['quality']) 
plt.xlabel('Alcohol') 
plt.ylabel('Quality') 

plt.title('Alcohol Against Quality') 
plt.show() 
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从 图 5.4 PUA 























酒 通常 质量 也 高 。 















































图 中 可 以 看 出 ， 酒 精 含量 和 质量 之 间 存 在 弱 正 相关 关系 ， 酒 精 





图 5.5 表明 挥发 性 酸 和 质量 之 间 存 在 负 相 关 关系 。 这 些 图 都 表明 了 响应 变量 依赖 于 多 
们 使 用 多 元 线性 回归 来 建 模 。 那 么 如 何 决 定 哪些 解释 变量 应 该 包含 到 模 


个 解释 变量 ， 让 我 














型 中 呢 ? Dataframe. 









































= 
精 含量 和 质量 之 间 


量 之 间 存 在 强烈 的 




















们 所 宣称 的 复杂 





corr () 方 法 计算 出 一 个 相关 系数 矩阵 , 这 个 相关 系数 矩阵 证 明了 酒 





有 强烈 的 正 相 关 关 系 ， 而 挥发 性 酸 这 种 能 够 让 酒 尝 起 来 像 醋 的 属性 和 质 
负 相 关 关 系 。 总 结 起 来 ， 我 们 假设 好 酒 应 该 有 高 酒精 含量 ， 同 时 尝 起 来 
不 像 醋 。 这 个 假设 似乎 是 有 道理 的 ， 尽 管 这 可 能 表明 葡萄 酒 爱 好 者 可 能 没有 品 出 那么 多 他 
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现在 我 们 将 把 数据 分 为 训练 数据 和 测试 数据 ， 训 练 回 归 器 并 评估 它 的 预测 


人 码 5.7 所 示 。 
代码 5.7 


# In[1]: 








from sklearn.linear model import LinearRegression 

















能 力 ， 如 代 
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import pandas as pd 
import matplotlib.pylab as plt 
from sklearn.model selection import train test split 





df = pd.read csv('./winequality-red.csv', sep=';') 

Xx = df[list (df.columns) [:-1]] 

y = df['quality'] 

X train, X test, y train, y test = train test split(X, y) 





regressor = LinearRegression() 

regressor.fit(X_train, y train) 

y_predictions = regressor.predict (X test) 

print ('R-squared: %s' % regressor.score(X test, y test) ) 


# Out[1]: 
R-squared: 0.398550890379 
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首先 ， 我 们 使 用 pandas 加 载 数 据 ， 并 把 响应 变量 和 解释 变量 分 割 开 。 接 着 我 们 使 用 
traintestsplit 方法 将 数据 随机 分 割 成 训练 集 和 测试 集 。 所 有 数据 分 割 的 比例 可 以 通 
过 关键 字 参 数 来 指定 。 例 如 ，25% 的 数据 被 指定 为 测试 数据 集 。 最 后 ， 我 们 训练 模型 ， 并 
在 测试 集 上 评估 模型 。 决 定 系数 是 0.35。 如 果 另 外 一 个 75% 的 数据 被 分 割 为 训练 集 ， 性 能 
将 会 有 所 改变 。 我 们 可 以 使 用 交叉 验证 来 产 出 一 个 对 预测 器 性 能 的 更 好 的 估计 。 回 顾 第 1 
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章 中 的 内 容 ， 每 一 个 交叉 验证 轮 次 将 训练 数据 和 测试 数据 设 定 为 不 同 的 数据 分 割 以 减少 可 
变性 ， 如 代码 5.8 所 示 。 


代码 5.8 
# ITEL 
import pandas as pd 

from sklearn.model selection import cross val score 


from sklearn.linear model import LinearRegression 


df = pd.read_csv('./winequality-red.csv', sep=';') 
x = df[list (df.columns) [:-1]] 
y = df['quality'] 








regressor = LinearRegression() 
scores = cross _val_score(regressor, X, y, Cv=5) 
print (scores.mean () ) 


print (scores) 


# Out [1]: 
0.290041628842 
[ 0.13200871 0.31858135 0.34955348 0.369145 0.2809196 ] 


crossvalscore 帮助 函数 允许 我 们 轻松 地 使 用 提供 的 数据 和 估计 器 进行 交叉 验证 。 我 们 























使 用 cv 关键 字 参 数 指定 进行 5 重 交 叉 验 证 。 也 就 是 说 ， 每 个 训练 实例 将 会 随机 地 分 入 5 个 




















分 割 中 ， 每 个 分 割 将 会 被 用 于 训练 和 测试 模型 。crossvalscore 函数 返回 每 一 轮 的 估计 
器 得 分 方法 值 。 决 定 系数 的 范围 从 0.13 一 0.36， 得 分 的 均值 0.29 与 单个 训练 /测试 产 出 的 决 
定 系数 相 比 ， 是 对 预测 器 预测 能 力 更 好 的 估计 。 













































































让 我 们 来 检查 模型 的 几 个 预测 ， 并 将 真实 质量 得 分 和 预测 得 分 一 起 画 在 图 5.6 中 ， 如 



































代码 5.9 所 示 。 

代码 5.9 

Predicted: 4.89907499467 True: 4 
Predicted: 5.60701048317 True: 6 
Predicted: 5.92154439575 True: 6 
Predicted: 5.54405696963 True: 5 
Predicted: 6.07869910663 True: 7 
Predicted: 6.036656327 True: 6 
Predicted: 6.43923020473 True: 7 
Predicted: 5.80270760407 True: 6 
Predicted: 5.92425033278 True: 5 
Predicted: 5.31809822449 True: 6 
Predicted: 6.34837585295 True: 6 
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预测 质量 和 真实 质量 的 关系 
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正如 你 所 预期 的 ， 一 些 预 测 值 能 准确 地 匹配 响应 变量 的 真实 值 。 由 于 训练 数据 中 的 大 
部 分 都 是 针对 普通 酒 ， 该 模型 也 能 较 好 地 预测 普通 酒 的 质量 。 


5.5 梯度 下 降 法 































































































在 本 章 的 例子 中 ， 我 们 使 用 公式 5.10 将 代价 函数 极 小 化 来 解 出 模型 的 参数 值 : 


B=(X'X) AX (公式 5.10) 








FEY, X EBAVERE. XTX AER EAS n x n FYE, Hp 
n 是 特征 数量 。 对 该 方针 求 逆 的 计算 复杂 度 接 近 于 特征 数量 的 3 次 方 。 尽 管 在 本 章 的 例子 
中 特征 数量 很 小 , 但 是 对 那些 我 们 将 在 后 续 章 节 中 过 到 的 有 成 干 上 万 解释 变量 的 问题 来 说 ， 
求 逆 需要 消耗 大 量 的 运算 能 力 。 另 外 ， 如 果 XY 对 的 行列 式 为 0， 无 法 对 其 求 逆 。 在 本 节 中 ， 
我 们 将 讨论 另 一 种 能 有 效 估计 模型 参数 最 优 值 的 方法 ， 称 为 梯度 下 降 法 。 注 意 我 们 对 拟 合 
































优 度 的 定义 并 没有 改变 ， 我 们 依然 将 使 用 梯度 下 降 法 来 估计 出 能 将 代价 函数 极 小 化 的 模型 
参数 值 。 














梯度 下 降 法 有 时 会 被 类 比 描述 为 一 个 蒙 住 眼睛 的 人 试 着 从 山腰 上 找到 通 往 山谷 最 低 点 
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的 路 。 这 个 人 看 不 见地 势 ， 但 是 她 能 够 判断 每 一 步 的 陡峭 程度 。 首 先 她 会 向 下 降 最 快 的 广 
向 走 一 步 ， 接 着 同样 在 下 降 最 快 的 方向 上 走 另 一 步 。 她 的 每 一 步 的 跨度 和 当前 位 置地 形 的 
陡峭 程度 成 比例 。 当 地 形 很 陡 哨 时 她 会 走 大 步 ， 因 为 她 很 确信 她 依然 很 接近 山 项， 并 且 她 
不 会 越过 山谷 的 最 低 点 。 当 地 形变 得 不 那么 陡峭 时 她 会 走 小 步 ， 如 果 她 依然 走 大 步 ， 她 有 
可 能 会 迈 过 山谷 的 最 低 点 。 接 着 她 需要 改变 方向 再 次 向 山谷 的 最 低 点 前 进 。 通 过 逐渐 减少 
大 步 ， 她 能 够 避免 在 山谷 最 低 点 周围 来 回 行走 。 这 个 蒙 着 眼睛 的 人 会 继续 行走 ， 直 到 她 的 
下 一 步 无 法 降低 高 度 ， 在 这 个 点 她 就 找到 了 山谷 的 底部 。 

规范 地 来 说 ， 梯 度 下 降 法 是 一 种 用 于 估计 一 个 函数 局 部 最 小 值 的 优化 算法 。 回 顾 一 下 
在 我 们 的 线性 回归 问题 中 我 们 使 用 了 RSS 代价 函数 ， 如 公式 5.11 所 示 ; 




































































































































































SS, = 0,- SA (公式 5.11) 
i=l 





我 们 可 以 使 用 梯度 下 降 法 找到 能 够 使 一 个 包含 许多 变量 的 实 值 代 价 函数 C 最 小 化 的 参 
数 。 梯 度 下 降 法 通过 在 每 一 步 计 算 代价 函数 的 局 部 导数 来 反复 更 新 参数 。 对 于 这 个 例子 ， 
我 们 假设 C 是 一 个 包含 两 个 变量 vi 和 vw 的 函数 。 为 了 使 用 梯度 下 降 法 求 出 C 的 极 小 值 
我 们 需要 在 变量 上 进行 一 个 微小 的 变化 来 让 输出 结果 产生 微小 的 变化 。 继 续 我 们 蒙 住 眼睛 
的 人 的 类 比 ， 她 每 次 都 需要 往 下 降 最 快 的 方向 上 迈 出 一 步 以 到 达 山 谷 。 我 们 用 Avi 表示 在 
vi EWE, HAv RIRE v。 上 的 变化 。 在 vi 方向 上 迈 出 一 小 步 Av1， 同 时 在 ww 方向 上 迈 出 
一 小 步 Av, 会 导致 C 的 值 有 一 个 很 小 的 变化 AC。 更 加 正式 的 表示 ， 我 们 可 以 用 公式 5.12 来 
将 C 的 变化 同 vi 和 vw 的 变化 联系 起 来 : 
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AC = ay £m, (公式 5.12) 
yi Vy 
在 公式 5.12 中 ， C fe C 对 于 vi 的 偏 微 分 。 在 每 一 步 中 ，AC 应 该 为 负 值 以 减 小 代价 
¥i 

















函数 。 我 们 该 如 何 选择 Av 和 Av WE? 为 了 方便 ， 我 们 可 以 用 向 量 形式 表示 Av Mav, WA 
式 5.13 所 示 : 








Av = (Av,,Av,)" (公式 5.13) 


我 们 也 可 以 引入 C 的 梯度 向 量 ， 如 公式 5.14 所 示 : 


T 
rc-| 2 a) (公式 5.14) 





ðv Ov, 
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因此 我 们 可 以 将 AC 的 计算 公式 重 写 为 公式 5.15: 





为 了 




















了 





= 


AC =VCVv (公式 5.15) 


确保 AC 为 负 ， 我 们 可 以 设 定 Av 为 公式 5.16: 


Av =-nVC (公式 5.16) 





我 们 将 公式 5.15 中 的 Av 用 公式 5.16 进行 替换 以 明确 为 什么 C 一 定 为 负 ， 如 公式 5.17 


所 示 : 

















AC=-nVC。VC (Ax, 5,17) 











VC 的 平方 始终 大 于 0。 我 们 为 其 乘 以 一 个 学 习 速 度 7， 并 将 乘积 求 反 。 在 每 一 次 迭代 
中 ， 我 们 将 计算 C 的 导数 ， 并 从 我 们 的 变量 向 量 中 减 去 7VC 确保 在 下 降 最 快 的 方向 上 迈 出 


一 步 。 
































有 唯一 最 小 值 。 如 果 
图 像 上 ， 则 这 个 函数 是 凸 函 数 。 一 个 包含 所 有 可 能 参数 值 的 凸 代价 函数 的 三 维 图 像 看 起 来 


















































注意 到 梯度 下 降 法 是 用 来 估计 一 个 函数 的 局 部 最 小 值 这 一 点 是 很 重要 的 。 凸 代价 函数 














个 实 值 函 数 图 像 上 的 两 个 点 之 间 的 线段 在 函数 图 像 之 上 或 者 在 函数 






























































像 一 个 太 ， 碗 的 最 低 点 就 是 最 小 值 。 反 之 ， 非 凸 函数 可 以 有 很 多 局 部 最 小 值 。 非 凸 代价 函 











数值 的 区 

















个 山谷 ， 


梯度 






























































象 包 含 许多 山峰 和 山谷 。 梯 度 下 降 法 只 能 保证 找到 一 个 局 部 最 小 值 ， 它 将 找到 一 
晶 是 并 不 保证 能 找到 最 低 的 山谷 。 垃 运 的 是 ， 代 价 函 数 的 平方 残 差 和 是 凸 的 。 

下 降 法 中 的 一 个 重要 超 参 数 是 学 习 速 率 ， 它 控制 着 蒙 着 眼睛 的 人 每 一 步 的 大 小 。 
如 果 学 习 速 率 足 够 小 , 代价 函数 将 会 在 每 次 迭代 中 减少 直到 梯度 下 降 法 收敛 到 最 优 参 数值 。 



























































然而 ， 当 学 习 速率 下 降 时 ， 梯 度 下 降 法 收敛 所 需 的 时 间 会 增加 。 如 果 蒙 着 眼睛 的 人 每 一 步 




















都 很 小 ， 相 比 每 一 步 都 很 大 的 情形 ， 她 将 花费 更 长 的 时 间 到 达 山 谷 。 如 果 学 习 速率 很 大 ， 





























她 将 会 在 山谷 的 底部 来 回 徘徊 ， 也 就 是 说 ， 梯 度 下 降 法 将 会 在 参数 最 优 值 附近 来 回 震 荡 而 








无 法 收敛 
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BAE FEAR TE BE CII I ANF OR BET A BOD ARKAE, oe 3 
种 变 体 。 批 次 梯度 下 降 法 在 每 次 迭代 中 使 用 全 部 训练 实例 来 更 新 模型 参数 。 相 反 ， 随 机 梯 
度 下 降 法 在 每 次 迭代 中 仅仅 使 用 一 个 训练 实例 来 更 新 参数 ,训练 实例 的 选择 通常 是 随机 的 。 
这 两 种 变 体 都 可 以 看 作 是 小 批 次 随机 梯度 下 降 法 的 特殊 形式 ， 它 在 每 次 迭代 中 总 使 用 包含 
数量 的 小 批 次 训练 实例 。 













































































=y 
是 更 好 的 























有 成 百 上 干 





[至 更 多 的 训练 实例 时 ， 小 批 次 随机 梯度 下 降 法 或 者 随机 梯度 下 降 法 
选择 ， 因 为 它们 会 比 批 次 梯度 下 降 法 收敛 更 快 。 批 次 梯度 下 降 法 是 一 种 确定 性 算 
法 ， 对 于 相同 的 训练 数据 集 将 产 出 同样 的 参数 值 。 作 为 一 种 随机 算法 ， 随 机 梯度 下 降 法 可 
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以 在 每 次 运行 时 产 出 不 同 的 参数 估计 。 因 为 仅仅 使 用 一 个 训练 实例 来 更 新 权重 ， 随 机 梯度 
下 降 法 可 能 并 不 能 求 出 代价 函数 以 及 梯度 下 降 的 极 小 值 。 它 的 预 估 通常 是 足够 接近 的 ， 尤 
其 是 对 于 像 平 方 残 差 和 这 样 的 凸 函 数 。 

让 我 们 借助 scikit-learn 类 库 使 用 随机 梯度 下 降 法 来 估计 一 个 模型 的 参数 。 
SGDRegressor 类 是 随机 梯度 下 降 法 的 一 种 实现 , 它 甚至 能 被 用 于 包含 成 百 上 干 其 至 更 多 
特征 的 回归 问题 中 。 它 能 够 被 用 来 优化 不 同 的 代价 函数 以 拟 合 不 同 的 模型 ， 默 认 情 况 下 ， 
它 会 优化 RSS。 在 这 个 例子 中 ,我们 将 使 用 13 个 特征 来 预测 房屋 价格 ， 如 代码 5.10 所 示 。 






























































































































































代码 5.10 
# In[1l 
import numpy as np 








from sklearn.datasets import load_boston 

from sklearn.linear model import SGDRegressor 

from sklearn.model_ selection import cross val score 
from sklearn.preprocessing import StandardScaler 
from sklearn.model_ selection import train test split 
data = load_boston() 


X train, X test, y train, y test = train test split (data.data, data.target) 

scikit-leam 类 库 提 供 了 loadboston 函数 来 方便 地 加 载 数 据 集 。 首 先 ， 我 们 使 用 
traintest split 方法 将 数据 分 为 训练 集 和 测试 集 ， 同 时 将 训练 数据 标准 化 。 最 后 ， 我 
们 拟 合 并 评估 估 测 器 ， 如 代码 5.11 所 示 。 









































代码 5.11 
# In[2]: 
x scaler = StandardScaler () 
y_ scaler = StandardScaler () 


X train = X_scaler.fit_transform(X_ train) 
y_train = y scaler.fit_transform(y train.reshape(-1, 1)) 
X test = X_scaler.transform(X test) 





y_test = y scaler.transform(y test.reshape(-1, 1)) 
regressor = SGDRegressor(loss='squared_loss') 
scores = cross val_score(regressor, X train, y train, cv=5) 


print ('Cross validation r-squared scores: %s' % scores) 

print ('Average cross validation r-squared score: %s' % np.mean(scores) ) 
regressor.fit(X train, y train) 

print ('Test set r-squared score %s' % regressor.score(X test, y test)) 


# Out[2]: 
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Cross validation r-squared scores: [ 0.55323539 0.77067053 0.78551352 
0.69416906 0.53274918] 

Average cross validation r-squared score: 0.667267533715 

Test set r-squared score 0.733718249165 


5.6 ”小结 
































在 本 章 中 ， 我 们 介绍 了 多 元 线性 回归 ， 它 是 一 种 简单 线性 回归 的 泛 化 形式 ， 它 使 用 多 
个 变量 来 预测 一 个 响应 变量 的 值 。 我 们 描述 了 多 项 式 回 归 ， 它 是 一 种 可 以 使 用 多 项 式 特 征 
项 来 对 非 线 性 关系 建 模 的 线性 模型 。 我 们 介绍 了 正则 化 的 概念 ， 它 可 以 用 于 防止 模型 在 训 
练 数据 中 记忆 噪声 。 最 后 ， 我 们 介绍 了 梯度 下 降 法 ， 它 是 一 种 能 够 预 估 使 代价 函数 极 小 化 
的 参数 值 的 可 扩展 学 习 算法 。 









































































































































在 上 一 章 中 ， 我 们 讨论 了 简单 线 怡 





都 是 泛 线 性 模型 ， 
































第 6 章 


从 线性 回归 到 逻辑 回归 


E 回 归 、 多 元 线性 回归 和 多 项 式 线性 回归 。 这 些 模型 

















归 需 要 更 少 假设 的 灵 














P, RITER 


相关 联 。 








必须 使 用 成 对 的 特征 向 量 和 它们 对 应 的 标签 来 
能 指标 来 进行 衡量 。 在 二 元 分 类 问题 ， 
， 分 类 器 必须 将 一 
































些 我 们 在 第 4 章 中 








和 我 们 之 前 讨论 的 
目标 是 引入 一 个 函数 ， 该 函数 能 将 观测 值 外 




















一 些 假设 ， 这 些 假设 和 另 一 种 称 为 逻辑 回归 上 





活 框架 的 特殊 形式 。 在 本 章 





的 泛 线性 模型 的 特殊 形式 


模型 不 同 ， 池 得 回归 常用 于 分 类 任务 。 回 顾 一 下 ， 分 类 任务 的 
上 与 之 相关 联 的 类 或 者 标签 。 一 个 学 习 算 法 



































值 ， 并 使 用 一 些 怕 
类 中 的 一 个 类 。 在 多 元 分 类 问题 ， 
中 ， 我 们 将 使 用 逻辑 回归 来 解决 儿 个 分 类 问题 ， 讨 论 分 类 任务 的 了 
学 到 的 特征 提取 技巧 。 















































导出 能 产 出 最 佳 分 类 器 的 映射 函数 的 参数 
， 分 类 器 必须 将 实例 分 配 到 两 个 
组 标签 分 配给 每 个 实例 。 在 本 章 内 容 


























生 能 衡量 方式 ， 并 运用 一 














6.1 使 用 逻辑 回归 进行 二 元 分 类 

















普通 的 线性 回归 假设 响应 变 














个 观测 值 对 应 一 个 位 于 














于 均值 ， 另 一 半数 据 小 于 均 




















。 正 态 分 布 数据 的 均值 、 









































正 态 分 布 。 正 态 分 布 或 者 高 斯 分 布 ， 是 描述 任何 
两 个 实数 之 间 值 的 概率 的 函数 。 正 态 分 布 数据 是 对 称 的 ， 一 半 值 大 
位 数 和 众 数 也 相等 。 许 多 自然 现 















































和 象 都 近似 于 正 态 分 布 。 例 如 ， 人 的 身高 是 正 态 分 布 的 ， 大 多 数 人 有 平均 喘 高， 少数 人 长 得 


高 ， 少 数 人 长 得 矮 。 在 
两 个 结果 一 一 正面 朝 上 或 者 背面 朝 上 。 
或 者 概率 为 1-P 的 负 向 情 ; 
被 限制 在 [0,1] 中 。 线 怕 


























量 不 符合 1 















































E 态 分 布 。 例 如 ， 投 掷 一 次 硬币 会 产生 
伯 努 利 分 布 描述 了 一 个 只 能 取 概 率 为 P 的 正 向 情况 
的 随机 变量 的 概率 分 布 。 如 果 响 应 变量 代表 一 个 概率 ， 它 只 能 
FE 值 的 同等 变化 将 造成 响应 变量 上 的 同等 变化 ， 然 
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将 特征 的 线性 组 合 和 响应 变量 相关 联 来 去 除 该 假设 。 实 际 上 ， 我 们 在 第 
一 个 连接 函数 ， 普 通 的 线性 回归 是 泛 化 线性 模型 的 一 种 特殊 形式 ， 它 使 用 恒 等 函 数 将 特征 
的 线性 组 合 连接 到 一 个 正 态 分 布 响应 变量 。 我 们 可 以 使 用 一 个 不 同 的 连接 函数 来 连接 特征 
的 线性 组 合 和 一 个 非 正 态 分 布 响 应 变量 。 


而 如 果 响 应 变量 表示 一 个 概率 ， 则 该 假设 不 成 立 。 泛 化 的 线性 模型 通过 使 用 一 个 连接 函数 
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草 中 已 经 使 用 了 




























































































在 逻辑 回归 中 ， 响 应 变量 描述 了 结果 是 正 向 情况 的 概率 。 如 果 响 应 变量 等 于 或 者 超 





























出 了 一 个 区 分 闪 值 ， 则 被 预测 为 正 向 类 ， 和 否则 将 被 预测 为 负 向 类 。 响 应 变量 使 用 罗 辑 函 
数 建 模 为 一 个 特征 的 线性 组 合 函数 。 如 公式 6.1 所 示 ， 旭 辑 函 数 总 是 返回 一 个 位 于 0 一 1 


















































之 间 的 值 : 


FO=— (公式 6.1) 
l+e 











在 公式 中 ，e 是 一 个 称 为 欧 拉 数 的 常量 。 它 是 一 个 无 理 数 ， 其 开头 的 几 位 是 2.718。 


图 6.1 


是 逻辑 函数 在 区 间 [-6,6] 之 间 的 图 示 。 
了 一 























图 6.1 





对 于 逻辑 回归 ，t 等 于 解释 变量 的 线性 组 合 ， 如 公式 6.2 所 示 : 





a 1 ANP 


MA PA IE AS PR IC. ERG FQ) 反 连接 到 特征 的 一 个 线性 组 合 ， 如 公式 6.3 所 示 : 





we (公式 6.3) 


8) =I FG) 




















模型 的 参数 值 可 以 用 许多 学 习 算 法 来 估计 ， 包 括 梯度 下 降 法 。 既 然 我 们 已 经 定义 了 迪 
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辑 回归 的 模型 ， 让 我 们 来 将 其 运用 于 一 个 二 元 分 类 任务 。 


6.2 垃圾 邮件 过 滤 








我 们 的 第 一 个 任务 是 现代 版 的 典型 二 元 分 类 问题 : 垃圾 邮件 过 滤 。 














然而 在 我 们 的 版 本 








中 ,我 们 将 分 类 垃圾 短信 和 非 垃 圾 短信 ， 而 不 是 邮件 。 我 们 将 使 用 前 再 











节 中 学 到 的 技巧 ， 


















































从 信息 中 提取 tf-idf 特征 ， 并 使 用 轩 辑 回归 对 短信 进行 分 类 。 我 们 将 使 用 来 自 UCI 机 器 学 
习 仓 库 中 的 垃圾 信息 数据 集 ， 该 数据 集 可 以 从 https://archive.ics.uci.edu/ml/datasets/ 














sms+spamtcollection 下 载 。 首 先 ， 让 我 们 来 探索 该 数据 集 ， 并 使 用 pandas 类 库 计 算 一 些 基 

















本 概括 统计 量 ， 如 代码 6.1 所 示 。 


代码 6.1 
# In[1]: 
import pandas as pd 

















df = pd.read_csv('./SMSSpamCollection', delimiter='t', header=None) 





print (df.head() ) 


# Out[1]: 

0 
0 ham Go until jurong point, crazy.. Available only ... 
1 ham Ok lar... Joking wif u oni... 
2 spam Free entry in 2 a wkly comp to win FA Cup fina... 
3 ham U dun say so early hor... U c already then say... 
4 ham Nah I don't think he goes to usf, he lives aro... 





# In[2]: 

print ('Number of spam messages: %s' % df[df[0] == 'spam'] [0].count()) 
print ('Number of ham messages: %$s' % df[df[0] == 'ham'] [0].count()) 

# Out [2]: 


Number of spam messages: 747 
Number of ham messages: 4825 

















数据 集 的 每 一 行 由 一 个 二 元 标签 和 一 个 文本 信息 组 成 。 该 数据 集 包 含 5574 个 实例 , 其 


























中 4827 条 信息 是 非 垃圾 短信 ， 剩 余 的 747 条 信息 是 垃圾 短信 。 显 然 ，1 


E 向 的 输出 经 常 被 赋 

















ES 


直 为 1， 负 向 输出 经 常 被 赋值 为 0， 但 事实 上 赋值 是 随机 的 。 观 察 数 据 




































































岂 许 能 透露 其 他 应 该 
被 模型 捕获 的 属性 。 以 下 的 信息 集合 描述 了 垃圾 短信 和 非 垃 圾 短信 的 基本 特征 。 


垃圾 短信 : Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 
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3 





= 


87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's 


垃圾 短信 : WINNER!! As a valued network customer you have been selected to receivea 
£900 prize reward! To claim call 09061701461. Claim code KL341. Valid 12 hours only. 


非 垃圾 短信 : Sorry my roommates took forever, it ok if I come by now? 
非 垃圾 短信 : Finished class where are you. 


让 我 们 使 用 scikit-learn 类 库 的 LogisticRegression 类 来 进行 一 些 预 测 。 首 先 ， 我 
们 将 数据 集 分 为 训练 集 和 测试 集 。 默 认 情 况 下 ，traintestsplit 将 75% 的 样本 分 为 训练 
集 ， 将 剩余 的 25% 的 样本 分 为 测试 集 。 接 着 ， 我 们 创建 一 个 TfidfVectorizer 实例 。 回 
顾 第 4 章 的 内 容 ，Tfidfvectorizer 类 包含 CountVectorizer M TfidfTransformer 
类 。 我 们 使 用 训练 信息 文本 去 拟 合 它 ， 同 时 将 训练 文本 和 测试 文本 都 进行 转换 。 最 后 ， 我 
们 创建 一 个 LogisticRegression 实例 并 训练 一 个 模型 。 和 LinearRegression 类 一 
样 ，LogisticRegression 类 也 实现 了 fit 和 predict 方法 。 作 为 完整 性 检查 ， 我 们 
将 一 些 人 工 检验 的 预测 结果 打印 出 来 ， 如 代码 6.2 所 示 。 


代码 6.2 
# In[3]: 
import numpy as np 
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import pandas as pd 
from sklearn.feature extraction.text import TfidfVectorizer 





from sklearn.linear model.logistic import LogisticRegression 
from sklearn.model_ selection import train test split, cross val score 


X = df[1].values 
y = df[0].values 








X train raw, X_test_raw, y train, y test = train test_split (X, y) 
vectorizer = TfidfVectorizer() 
X train = vectorizer.fit_transform(X train _ raw) 





X test = vectorizer.transform(X_test_raw) 
classifier = LogisticRegression () 
classifier.fit(X_train, y train) 
predictions = classifier.predict(X_test) 





for i, prediction in enumerate (predictions[:5]): 
print ('Predicted: %s, message: Ss' % (prediction, 
X test_raw[i])) 


# Out[3]: 
Predicted: ham, message: Now thats going to ruin your thesis! 
Predicted: ham, message: Ok... 
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Predicted: ham, message: Its a part of checking IQ 


Predicted: spam, message: Ringtone Club: Gr8 new polys direct to your 


mobile every week ! 


Predicted: ham, message: Talk sexy!! Make new friends or fall in love in 


the worlds most discreet text dating service. Just text VIP to 83110 and 


see who you could meet. 


分 类 器 性 能 如 何 呢 ? BANTER 














仅 关 注 预 测 的 类 是 否 正确 ， 以 及 预测 


















































论 可 以 被 用 于 评估 二 元 分 类 器 的 性 能 指标 。 





6.2.1 二 元 分 类 性 能 指标 






































假 阳 性 和 假 阴性 的 概念 。 阳 性 和 阴性 
否 相同 。 
对 于 我 们 的 垃圾 短信 分 类 器 , 当 分 















































可 以 用 来 对 真 假 阴 B 
代码 6.3 所 示 。 























代码 6.3 
# In[4]: 




















FE 回 归 中 使 用 的 性 能 指标 在 该 任务 中 不 太 适 用 ， 我 们 仪 
结果 离 决 策 边界 有 多 远 。 在 下 一 节 内 容 中 ， 我 们 将 讨 
















































































E 用 来 指 代 类 


类 器 将 一 





许多 指标 能 基于 可 信 标 签 对 二 元 分 类 器 的 性 能 进行 衡量 。 最 常用 的 指标 是 准确 率 、 精 
MEK. AEX, FL 值 以 及 ROC AUC 得 分 。 所 有 这 些 衡量 方式 都 是 基于 真 阳性 、 真 阴性 、 










































































。 真 和 假 用 来 标示 预测 的 类 和 真实 的 类 是 


条 短信 正确 地 预测 为 垃圾 短信 时 为 真 阳 性 。 
当 分 类 器 将 一 条 短信 正确 地 预测 为 非 垃圾 短信 时 为 真 阴 性 。 当 非 垃 圾 短信 被 预测 为 垃圾 短 
信和 时 为 假 阳 性 ， 当 垃圾 短信 被 预测 为 非 垃圾 短信 时 为 假 阴 性 。 一 个 混淆 矩阵 或 者 列 联 表 ， 
性 可 视 化 。 和 矩阵 的 行 是 实例 的 真实 类 ， 和 矩阵 的 列 是 实例 的 预测 类 ， 如 





















































from sklearn.metrics import confusion matrix 


import matplotlib.pyplot as 


y test = 10,0; 0; Oy, Oy. 1, 
y pred = [0, 1, 0, 0, 0, 0, 


plt 


1, 1, 1, 
Ogee Ly 


1] 
1] 


confusion matrix = confusion matrix(y test, y pred) 











# Out[4]: 


") 


) 


print (confusion matrix) 
plt.matshow (confusion matrix) 
plt.title('Confusion matrix 
plt.colorbar () 
plt.ylabel('True label') 
plt.xlabel('Predicted label' 
olt.show() 
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Era 1] 
[2 3]] 


如 图 6.2 所 示 ， 混 淆 矩阵 标明 有 4 个 真 阴性 预测 、3 个 真 阳 性 预测 、2 个 假 阴 性 预测 ， 
和 1 个 假 阳 性 预测 。 在 多 类 别 问题 中 很 难 去 决定 出 现 错误 最 多 的 类 型 ， 此 时 混 清和 矩阵 变 得 
非常 有 用 。 








Cpnfusion matrix 4.0 


True label 





Predicted label 





图 6.2 


6.2.2 ”准确 率 


回顾 一 下 ， 准 确 率 用 来 衡量 分 类 器 预测 正确 的 比例 。LogisticRegression.score 
方法 使 用 准确 率 来 给 一 个 测试 集 的 标签 进行 预测 和 打分 。 如 代码 6.4 所 示 ， 让 我 们 来 评估 
分 类 器 的 准确 率 。 


代码 6.4 
# In[1]: 
import numpy as np 








import pandas as pd 
from sklearn.feature extraction.text import TfidfVectorizer 
from sklearn.linear model.logistic import LogisticRegression 





from sklearn.model selection import train test split, cross val score 
from sklearn.metrics import roc curve, auc 
import matplotlib.pyplot as plt 
df = pd.read_csv('./sms.csv') 
X train raw, X test raw, y train, y test = 
train _test_split(df['message'], 
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df['label'], random_state=11) 


vectorizer = TfidfVectorizer() 


xX train = vectorizer. 





fit_transform(X train raw) 


X test = vectorizer.transform(X test raw) 


classifier = LogisticRegression () 





classifier.fit(X_train, y train) 


scores = cross val_score(classifier, X train, y train, cv=5) 


print ('Accuracies: %s' % scores) 


print ('Mean accuracy: 


# Out[1]: 


os' % np.mean(scores) ) 


Accuracies: [ 0.95221027 0.95454545 0.96172249 0.96052632 0.95209581] 















































ean accuracy: 0.956220068309 
虽然 准确 率 衡量 了 分 类 器 的 整体 正确 性 ， 它 并 不 能 区 分 假 阳性 错误 和 假 阴 性 错误 。 比 
起 假 阴 性 错误 ， 一 些 应 用 可 能 对 假 阳性 错误 更 敏感 ， 或 者 反之 。 另 外 ， 如 果 类 别 的 比例 在 




















pA 
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总 样本 中 呈 偏 态 分 布 ， 准 确 率 并 不 是 一 个 很 有 效 的 衡量 指标 。 例 如 ， 比 起 假 阳性 ， 一 个 用 

















pA 





























来 预测 信用 卡 交 易 是 否 是 苏 诈 的 分 类 器 对 假 阴 性 更 加 敏感 。 为 了 提升 顾客 的 满意 度 ， 信 用 









































`, 

















卡 公司 更 愿意 冒险 验证 交易 是 否 合法 ， 而 非 冒 险 去 忽略 一 个 欺诈 交易 。 因 为 大 多 数 的 交易 
是 合法 的 ， 对 于 该 问题 可 以 说 准确 率 并 不 是 一 种 有 效 的 衡量 指标 。 一 个 总 是 会 预测 交易 为 











合法 的 分 类 器 的 准确 率 很 高 ， 
准 率 和 召回 率 来 进行 衡量 。 
















































































但 是 可 能 并 不 是 很 有 用 。 基 于 这 些 原因 ， 分 类 器 经 常 使 用 精 

















6.2.3 ”精准 率 和 名 回 率 





回顾 一 下 ， 精 准 率 是 阳 怕 








率 表示 被 分 类 为 垃圾 短信 的 短信 实际 上 为 垃圾 短信 的 比例 。 召 回 率 表 示 真 实 的 阳性 实例 被 
分 类 器 辨认 出 的 比例 ， 在 医学 领域 有 时 也 被 称 为 敏感 性 。 召 回 率 为 1 表示 分 类 器 没有 做 出 








E 预 测 结果 为 正确 的 比例 。 在 我 们 的 垃圾 短信 分 类 器 中 ， 精 准 





















































任何 假 阴 性 预测 。 对 于 我 们 的 垃圾 短信 分 类 器 来 说 ， 召 回 率 是 真实 的 垃圾 短信 被 分 类 为 垃 


圾 短信 的 比例 。 


























单独 来 看 ， 精 准 率 和 召回 
率 和 召回 率 都 无 法 区 分 性 能 有 
器 可 以 通过 把 每 一 个 实例 都 预 
个 阳性 实例 和 10 个 阴性 实例 。 
一 个 分 类 器 如 果 将 所 有 实例 都 
类 似 的 ， 一 个 分 类 器 如 果 只 预 






































率 并 没有 意义 ， 它 们 都 是 关于 分 类 器 性 能 的 不 完整 视角 。 精 准 
好 的 分 类 器 和 性 能 很 差 的 特定 种 类 的 分 类 器 。 一 个 普通 的 分 类 
测 为 阳性 来 达到 完美 的 召回 率 。 例如 , 假设 一 个 测试 集 包含 10 
一 个 分 类 器 如 果 将 每 一 个 实例 都 预测 为 阳性 , 召回 率 将 达到 1。 
预测 为 阴性 ， 或 者 只 做 假 阳 性 和 真 阴 性 预测 ， 召 回 率 将 为 0。 
测 一 个 实例 为 阳性 ， 而 该 预测 恰好 正确 ， 分 类 器 将 达到 完美 的 

































































精准 率 。 如 代码 6.5 所 示 ， 我 们 来 计算 垃圾 短信 分 类 器 的 精准 率 和 召回 率 。 


84 


信 。 
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代码 6.5 

# In[2]: 

precisions = cross val_score(classifier, X train, y train, cv=5, 


scoring='precision') 

print ('Precision: %s' % np.mean(precisions) ) 

recalls = cross val_score(classifier, X train, y train, cv=5, 
scoring='recall') 


print ('Recall: %s' % np.mean(recalls) ) 


# Out [2]: 
Precision: 0.992542742398 
Recall: 0.683605030275 


我 们 的 分 类 器 的 精准 率 为 0.992, 几乎 所 有 被 预测 为 垃圾 短信 的 信息 实际 上 都 是 垃圾 短 
它 的 召回 率 很 低 ， 这 表明 有 接近 32% 的 垃圾 短信 被 预测 为 非 垃圾 短信 。 






































6.2.4 计算 Fl 值 















































F1 值 是 精准 率 和 召回 率 的 调和 平均 值 .Fl 值 会 对 精准 率 和 召回 率 不 平衡 的 分 类 器 进行 





















































惩罚 , 例如 总 是 预测 阳性 类 的 普通 分 类 器 。 一 个 达到 完美 精准 率 和 召回 率 模型 的 Fl 得 分 为 
1。 一 个 达到 完美 精准 率 ， 而 召回 率 为 0 的 模型 的 Fl 得 分 为 0。 如 代码 6.6 ras, 我们 来 计 
算 分 类 器 的 Fl 得 分 。 

代码 6.6 

# In[3]: 

fils = cross val_score (classifier, X train, y train, cv=5, 


scoring='f1") 


print('Fl score: %s' $ np.mean(fl1s) ) 


# Out [3]: 
Fl score: 0.809067846627 


模型 有 时 会 使 用 F0.5 得 分 和 F 得 分 来 衡量 性 能 , 两 种 得 分 分 别 偏向 精准 率 和 召回 率 。 





























6.2.5 ROC AUC 


ROC 











受 试 者 操作 特征 ( ROC ) 曲线 ， 可 以 对 一 个 分 类 器 的 性 能 进行 可 视 化 。 和 准确 率 不 同 ， 
线 对 类 别 分 布 不 平衡 的 数据 集 不 敏感 。 和 精准 率 、 召 回 率 不 同 ，ROC 曲线 表明 了 分 


































































































类 器 对 所 有 阔 值 的 性 能 。ROC 曲线 描绘 了 分 类 器 召回 率 和 衰退 之 间 的 关系 。 衰 退 或 者 假 阳 


性 率 











， 古 假 阳性 数量 除 以 所 有 阴性 数量 的 值 ， 其 定义 如 公式 6.4 所 示 : 
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pa 
TN + FP 


AUC 是 ROC 曲线 以 下 部 分 的 面积 , 它 将 ROC 曲线 归纳 为 一 个 用 来 标示 分 类 器 预计 性 
能 的 值 。 图 6.3 中 虚线 表示 一 个 分 类 器 对 类 随机 进行 预测 ， 它 的 AUC 值 为 0.5。 实 曲线 表 
示 一 个 性 能 优 于 随机 猜测 的 分 类 器 。 


(公式 6.4) 
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图 6.3 














让 我 们 来 绘制 垃圾 短信 分 类 器 的 ROC 曲线 ， 如 代码 6.7 所 示 。 








代码 6.7 

# In[5]: 

predictions = classifier.predict proba(X_ test) 

false positive rate, recall, thresholds = roc_curve(y test, 


predictions[:, 1]) 








roc auc = auc(false positive rate, recall) 

plt.title('Receiver Operating Characteristic') 

plt.plot(false positive rate, recall, 'b', label='AUC = %0.2f' % 
roc_auc) 

plt.legend(loc='lower right") 

plt.plot([0, 1], [0, 1], 'r--") 

plt.xlim([0.0, 1.0]) 

plt.ylim([0.0, 1.0]) 

plt.ylabel('Recall') 
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s 
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plt.xlabel('Fall-out') 
plt.show() 


从 图 6.4 中 可 以 明显 地 看 到 分 类 器 性 能 是 优 于 随机 猜测 的 ， 图 中 几乎 所 有 的 区 域 都 位 
于 曲线 下 方 。 








受 度 者 操作 特征 





衰退 





图 6.4 


6.3 ”使 用 网 格 搜索 微调 模型 











回顾 第 3 章 的 内 容 ， 模 型 的 超 参数 是 学 习 算 法 无 法 估计 的 参数 。 例 如 ， 我 们 的 逻辑 回 
归 短 信 分 类 器 的 超 参 数 包括 正则 项 的 值 和 用 于 移 除 出 现 频率 过 高 或 者 过 低 的 单词 的 临界 
值 。 在 scikit-learn 类 库 中 ， 超 参数 通过 估计 器 和 转换 器 的 构造 函数 设置 。 在 前 面 的 例子 中 ， 
我 们 没有 设置 LogisticRegression 类 的 任何 参数 ， 对 于 所 有 超 参数 我 们 都 使 用 了 默认 
值 。 这 些 默认 值 通 常会 是 一 个 良好 的 开端 ， 但 它们 并 不 会 产 出 最 优 模型 。 网 格 搜索 是 一 种 
选择 能 产 出 最 优 模型 的 超 参数 值 的 常用 方法 。 网 格 搜索 接受 一 个 包含 所 有 应 该 被 微调 的 超 
参数 的 可 能 取 值 集合 ， 并 评估 在 该 集合 的 笛 卡 尔 乘积 的 每 一 个 元 素 上 训练 的 模型 的 性 能 。 
也 就 是 说 ， 网 格 搜索 是 一 种 穷 举 搜索 ， 它 在 指定 超 参 数值 的 每 一 种 可 能 的 组 合 上 对 模型 进 
行 训练 和 评估 。 网 格 搜索 的 一 个 缺点 是 ， 即 使 对 于 小 型 超 参数 集 都 会 耗费 大 量 的 算 力 。 幸 
运 的 是 ， 它 是 一 个 并 行 问题 ， 由 于 进程 之 间 没 有 同步 阻塞 ， 多 个 模型 可 以 并 发 地 训练 和 评 
估 。 让 我 们 使 用 scikit-learn 类 库 的 GridSearchcv 类 来 找 出 较 好 的 超 参 数值 。 
GridSearchcV 类 接受 一 个 估计 器 、 一 个 参数 空间 和 一 个 性 能 衡量 指标 。njobs 参数 标 
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明了 并 发 了 














[ 作 的 最 大 数量 ， 将 njobs 设置 为 -1 标明 使 用 所 有 的 CPU 核 。 需 要 注意 的 是 ， 
































为 了 生成 额外 的 进程 ，fit 方法 必须 在 Python 的 主 模块 中 调用 ， 如 代码 6.8 所 示 。 


代码 6.8 


# ITEL 


import 


from 
from 
from 
from 
from 
from 


from 


SK 
SK 
SK 
SK 
SK 
SK 





SK 





pandas as pd 


Learn. 


preprocessing import LabelEncoder 





Learn 





Learn. 


Learn. 


tearn. 


Learn. 


Learn. 





feature extraction.text import TfidfVectorizer 
linear model.logistic import LogisticRegression 


.grid search import GridSearchcCv 


pipeline import Pipeline 
model selection import train_test_split 


metrics import precision score, recall score, 


accuracy score 





pipeline = Pipeline ([ 
('vect', TfidfVectorizer(stop words='english')), 
('clf', LogisticRegression() ) 

]) 

parameters = { 
"Veet max df': (0.25, 0.5, 0.75), 
'vect stop words': ('english', None), 
'vect max features': (2500, 5000, 10000, None), 
'vect__ngram_range': ((1, 1), (1, 2)), 
"vect use idf': (True, False), 
“vec -Norm ('11', '12'), 
Yel f.-pénalty a AAEL; 712") y 
VERE CL (06.01 O02 ly 10); 

} 

df = pd.read csv('./SMSSpamCollection', delimiter='t', 


header=None) 
df[1].values 
df[0] .values 


Xos 
y= 
lab 





ncoder = LabelEncoder () 





1 
y = label encoder.fit transform(y) 





X train, X test, y train, y test = train test split (X, y) 





grid search = GridSearchCV(pipeline, parameters, n jobs=-1, 


verbose=1, 


scoring='accuracy', cv=3) 


grid_search.fit(X_ train, y train) 


print ('Best score: %0.3f' % grid_search.best_ score ) 


print ('Best parameters set:') 
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best parameters = grid search.best_ estimator .get_params () 

for param _name in sorted(parameters.keys()): 

print ('tss: %r' % (param name, best _parameters[param_name]) ) 
predictions = grid_search.predict (X_test) 

print ('Accuracy:', accuracy score(y test, predictions) ) 
print ('Precision:', precision _score(y test, predictions) ) 


print ('Recall:', recall _score(y test, predictions) ) 




















Out [1]: 
Fitting 3 folds for each of 576 candidates, totalling 1728 
fits[Parallel(n_jobs=-1)]: Done 42 tasks | elapsed: 4.5s 
Parallel (n_jobs=-1) ] Done 192 tasks | elapsed: 23.58 
Parallel (n_jobs=-1) ] Done 442 tasks | elapsed: S128 
Parallel (n_jobs=-1)]: Done 792 tasks | elapsed: 1.8min 
Parallel (n_jobs=-1) ] Done 1242 tasks | elapsed: 2.9min 
Parallel (n jobs=-1) ] Done 1728 out of 1728 | elapsed: 6.0min finished 





Best score: 0.983 
Best parameters set: 
cif Cr 10 
elf penalty: TL2" 
vect max df: 0.25 
vect_ max_features: 5000 
vect ngram range: (1, 2) 
vect stop words: None 
vect use idf: True 
Accuracy: 0.983488872936 
Precision: 0.99375 
Recall: 0.878453038674 


对 超 参数 值 进行 优化 提高 了 模型 在 测试 集 上 的 召回 率 。 


6.4 多 类 别 分 类 
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在 前 几 节 内 容 中 ， 我 们 学 习 了 使 用 逻辑 回归 进行 二 元 分 类 。 然 而 ， 在 许多 分 类 问题 中 ， 
类 别 常 常 多 于 两 类 。 我 们 也 许 希望 从 音频 的 采样 预测 歌曲 的 分 类 ， 或 者 通过 星系 图 片 对 星 
系 的 种 类 进行 分 类 。 多 类 别 分 类 问题 的 目标 是 将 一 个 实例 分 配 到 类 集合 中 的 某 一 个 。 
scikit-learn 类 库 使 用 一 种 称 为 一 对 全 或 者 一 对 剩余 的 策略 ， 来 支持 多 类 别 分 类 。 一 对 全 分 
类 对 每 一 个 可 能 的 类 使 用 一 个 二 元 分 类 器 。 实 例会 被 分 配 到 被 预测 为 最 有 可 能 的 类 。 
LogisticRegression 类 本 身 就 能 使 用 一 对 全 策略 文 持 多 类 别 分 类 。 让 我 们 使 用 


LogisticRegression 类 来 处 理 一 个 多 类 别 分 类 问题 。 
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假设 你 想 要 观看 一 部 电影 ， 但 是 你 对 烂 片 有 一 种 强烈 的 厌恶 感 。 为 了 帮助 你 做 决定 ， 
你 可 以 阅读 待 选 电影 的 评论 ， 但 不 幸 的 是 你 不 喜欢 阅读 影评 。 那 就 让 我 们 使 用 scikit-learn 
类 库 来 找 出 评论 较 好 的 电影 。 

在 这 个 例子 中 ， 我 们 将 对 取 自 烂 番茄 数据 库 中 影评 的 情绪 短语 进行 分 类 。 每 一 个 短语 
将 被 分 类 为 以 下 几 种 情绪 : 负 向 、 略 负 向 、 中 立 、 略 正 向 、 正 向 。 虽 然 类 别 已 经 排 好 序 ， 
日 是 由 于 讽刺 、 和 否认 和 其 他 语言 现象 的 存在 ， 我 们 将 使 用 的 解释 变量 并 不 总 是 能 印证 该 次 
将 。 相 反 ， 我 们 将 该 问题 看 作 一 个 多 类 别 分 类 问题 。 数 据 可 以 从 https://www.kaggle.com/c/ 
sentiment-analysis-on-movie-reviews/data 进行 下 载 。 首 先 , 我们 使 用 pandas 类 库 来 探索 该 数 
据 集 。 数 据 集 的 列 使 用 制 表 符 分 隔 。 数 据 集 包 含 156060 个 实例 ， 如 代码 6.9 所 示 。 

















































































































代码 6.9 

# In[1]: 

import pandas as pd 

df = pd.read_csv('./train.tsv', header=0, delimiter='t') 
print (df.count()) 





# Out[1]: 

Phraseld 156060 
Sentenceld 156060 
Phrase 156060 
Sentiment 156060 


dtype: int64 


In[2]: 
print (df.head() ) 











Out [2]: 
PhraseId SentencelId Phrase 
0 1 1 A series of escapades demonstrating the adage ... 
2 1 A series of escapades demonstrating the adage ... 
2 3 1 A series 
3 4 1 A 
4 5 1 series 
Sentiment 
0 1 
I 2 
2 2 
3 2 
4 2 
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Sentiment 列 包 含 啊 应 变量 。 标 签 0 对 应 情绪 负 向 ，1 对 应 略 负 向 ， 以 此 类 推 。Phrase 列 
包含 原始 文本 。 来 自 电 影评 论 的 每 一 个 句子 已 经 被 解析 为 短语 。 在 这 个 例子 中 ， 我 们 不 需要 
Pharaseld 列 和 Senrenceld 列 。 让 我 们 打印 出 一 些 短语 并 对 其 进行 检验 ， 如 代码 6.10 所 示 。 









































代码 6.10 
# In[3]: 
print (df['Phrase'].head (10) ) 








# Out[3]: 

0 A series of escapades demonstrating the adage 

1 A series of escapades demonstrating the adage 

2 A series 
3 A 
4 series 
5 of escapades demonstrating the adage that what... 
6 of 
7 escapades demonstrating the adage that what is... 
8 escapades 
9 demonstrating the adage that what is good for 





Name: Phrase, dtype: object 


现在 让 我 们 来 检验 目标 类 ， 如 代码 6.11 所 示 。 


代码 6.11 
# In[4]: 
print (df['Sentiment'].describe() ) 





# Out[4]: 

count 156060.000000 

mean 2.063578 

std 0.893832 

min 0.000000 

25% 2.000000 

50% 2.000000 

15% 3.000000 

max 4.000000 

Name: Sentiment, dtype: float64 


# In[5]: 
print (df['Sentiment'].value_counts()) 


# Out[5]: 
2 79582 


了 并 | 


A 
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3 32927 
1 27273 
4 9206 
0 7072 


Name: Sentiment, dtype: int64 


In[6]: 
print (df['Sentiment'].value_counts()/df['Sentiment'].count () ) 


Out [6]: 
0.509945 
0.210989 
ar 0.174760 
4 0.058990 
0 0.045316 
Name: Sentiment, dtype: float64 


最 常见 的 中 立 类 Neutral 包含 超过 50% 的 实例 。 如 果 一 个 很 差 的 分 类 器 将 所 有 实例 












































预测 为 中 立 类 Neutral, WARKI 0.5， 因 此 对 于 该 问题 准确 率 并 不 是 一 个 很 有 效 
































的 性 能 衡量 方式 。 接 近 四 分 之 一 的 影评 是 正 向 或 者 略 正 向 ， 接 近 五 分 之 一 的 影评 是 负 向 或 
者 略 负 向 。 让 我 们 使 用 scikit-learn 类 库 训 练 一 个 分 类 器 ， 如 代码 6.12 所 示 。 











代码 6.12 
# In[7 
from sklearn.feature extraction.text import TfidfVectorizer 





from sklearn.linear model.logistic import LogisticRegression 

from sklearn.model_ selection import train test split 

from sklearn.metrics import classification report, accuracy score, 
confusion matrix 


from sklearn.pipeline import Pipeline 








from sklearn.model selection import GridSearchCv 





df = pd.read_csv('./train.tsv', header=0, delimiter='t') 
X, y = df['Phrase'], df['Sentiment'].as_matrix() 
X train, X test, y train, y test = train test split (X, y, 


train size=0.5) 





grid search = main(X train, y train) 
pipeline = Pipeline ([ 
('vect', TfidfVectorizer(stop words='english')), 


('clf', LogisticRegression() ) 
]) 
parameters = { 

"vect, max df': (0.25, 0.5), 
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"vect__ngram_range': ((1, 1), (1, 2)), 
'vect use idf': (True, False), 
人 


} 





grid search = GridSearchCV(pipeline, parameters, n jobs=-1, 


verbose=1, scoring='accuracy') 
grid_search.fit(X_train, 
$0.3f£' 


t parameters set:') 


y_train) 


print ('Best score: 





print ('Bes 
best 


param name in sorted (parameters .keys()): 


parameters 


for 


rt & 
or 6 


print ('tSs: 





# Out[7]: 

Fitting 3 folds for each of 24 candidates, 
[Parallel (n_jobs=-1)]: Done 42 tasks | 
[Parallel (n_jobs=-1)]: Done 72 out of 72 | 
Best score: 0.621 

Best parameters set: 

telf Cs 10 

tvect max df: 0.25 

tvect ngram range: (1, 2) 


tvect use idf: False 


多 类 别 分 类 性 能 衡量 指标 





% grid_search.best_ 


grid search.best estimator 


score ) 


.get params () 


(param name, best parameters [Param name])) 


totalling 72 fits 


elapsed: 1.6min 


elapsed: 3.5min finished 


和 二 元 分 类 一 样 ， 混 淆 矩阵 对 于 可 视 化 分 类 器 的 错误 非常 有 用 。 精 准 率 、 召 回 率 和 了 Fl 

















分 数 也 可 以 针对 每 个 类 别 进 行 计 算 ， 对 于 所 有 预测 的 准确 








器 的 预测 情况 ， 如 代码 6.13 所 示 。 








率 也 会 被 计算 。 我 们 来 评估 分 类 


代码 6.13 

# In[8]: 

predictions = grid_search.predict (X test) 

print ('Accuracy: %s' % accuracy score(y test, predictions) ) 
print ('Confusion Matrix:') 

print (confusion matrix(y test, predictions) ) 

print ('Classification Report:') 

print (classification report (y test, predictions) ) 

# Out[8]: 

Accuracy: 0.636255286428 


Confusion Matrix: 
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[[ 1124 1725 628 65 10 
[ 923 6049 6132 583 34 
[ 197 3131 32658 3640 137 
[ 15 398 6530 8234 1301 
[ 3 43 530 2358 1582]] 

Classification Report: 





precision recall f1-score support 

0 0.50 0.32 0.39 3552 

1 0.53 0.44 0.48 13721 

2 0.70 0.82 0.76 39763 

3 0.55 0.50 0.53 16478 

4 0.52 0.35 0.42 4516 

avg / total 0.62 0.64 0.62 78030 




















首先 我 们 使 用 网 格 搜索 中 发 现 的 最 优 参数 集 进 行 预 测 。 昌 然 分 类 器 比 起 基线 分 类 器 来 
说 性 能 有 所 提升 ， 但 是 它 经 常会 将 略 正 向 类 和 咯 负 向 类 错误 地 预测 为 中 立 类 Neutral。 


6.5 多 标签 分 类 和 问题 转换 



































在 前 面 儿 节 中 ， 我 们 讨论 了 二 元 分 类 ， 其 中 每 个 实例 必须 分 配给 两 个 类 中 的 一 个 类 以 
及 多 类 别 分 类 ， 其 中 每 个 实例 必须 分 配给 一 个 类 集合 中 的 一 个 类 。 我 们 将 讨论 的 最 后 一 种 
分 类 问题 是 多 标签 分 类 ， 其 中 每 个 实例 可 以 被 分 配给 类 别 集合 的 一 个 子 集 。 多 标签 分 类 的 
例子 包括 给 论坛 中 的 消息 分 配 标签 以 及 对 一 张 图 片 中 的 物体 进行 分 类 。 对 于 多 标签 分 类 问 
题 ， 有 两 类 解决 方法 。 

问题 转换 方法 是 一 种 将 原 多 标签 问题 转换 为 一 系列 单 标签 分 类 问题 的 技巧 。 我 们 将 审 
阅 的 第 一 种 问题 转换 方法 是 将 训练 数据 中 出 现 的 每 个 标签 集 转换 为 单个 标签 。 例 如 ， 考 虑 
一 个 将 新 闻 文 章 分 类 为 一 个 集合 中 的 一 个 或 多 个 类 别 的 多 标签 分 类 问题 。 表 6.1 中 的 训练 
数据 包含 7 篇 属于 5 个 类 别 中 的 一 个 或 多 个 类 别 。 





































































































































































































表 6.1 
实例 本 地 新 闻 美国 新 闻 商业 新 闻 科技 新 闻 体育 新 闻 
1 J J 





V ~ 
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续 表 
实例 | ”本 地 新 闻 美国 新 闻 商业 新 闻 科技 新 闻 体育 新 闻 
5 V 
6 v 
7 v v 
使 用 训练 数据 标签 的 需 集 将 该 问题 转换 为 单 标签 分 类 任务 ， 可 以 得 到 表 6.2 中 的 训练 























数据 。 在 表 6.1 中 ， 第 一 个 实例 被 分 类 为 本 地 新 闻 和 美国 新 闻 ， 而 现在 它 只 有 一 个 标签 : 
本 地 新 闻 ^ 美 国 新 闻 。 
表 6.2 


实 | 本 地 新 | 本 地 新 闻 ^ 美 | 商业 新 | 本 地 新 闻 ^ 商 | 美国 新 闻 ^ 科 | 商业 新 闻 ^ 科 | 体育 新 
例 闻 国 新 闻 闻 业 新 闻 技 新 闻 技 新 闻 闻 































































































alalu] 和 | wm 
a 


J 
包含 5 个 类 的 多 标签 分 类 问题 现在 是 一 个 包含 7 个 类 的 多 类 别 分 类 问题 。 虽 然 将 问题 
进行 野 集 转换 非常 直观 ， 增 加 类 的 数量 通常 却 

A 


具有 可 行 性 。 该 转换 即使 对 很 少 的 几 个 训 
练 实例 也 会 产 出 很 多 新 标签 。 另 外 ， 训 练 的 分 类 器 只 能 预测 训练 数据 中 包含 的 标签 组 合 。 


第 二 种 问题 转换 策略 是 对 训练 集中 的 每 一 个 标签 训练 一 个 二 元 分 类 器 。 每 一 个 分 类 器 
预测 实例 是 否 属于 某 个 标签 。 针 对 我 们 的 例子 需要 5 个 二 元 分 类 器 ， 第 一 个 二 元 分 类 器 将 
预测 一 个 实例 是 否 被 分 类 为 本 地 新 闻 ， 第 二 个 二 元 分 类 器 将 预测 一 个 实例 是 否 被 分 类 为 美 
国 新 闻 ， 以 此 类 推 。 最 终 的 预测 结果 是 所 有 二 元 分 类 器 预测 结果 的 聚合 。 转 换 后 的 训练 数 
据 如 表 6.3 一 表 6.7 所 示 。 这 种 问题 转换 方法 确保 了 单 标签 问题 和 多 标签 问题 都 拥有 相同 数 
量 的 训练 实例 ， 但 是 却 忽 略 了 标签 之 间 的 关系 。 

表 6.3 
Ko 例 本 地 新 闻 非 本 地 新 闻 

1 J 

2 J 




















a 加 






























































































































































本 地 新 闻 
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非 本 地 新 闻 





y 





J 











表 6.4 


将 


NLD] na] BR] w 


商业 新 闻 





非 商业 新 闻 





J 




















NLD] nm] BR] SNJ 一 


科技 新 闻 





非 科 技 新 闻 





af 





J 

















表 6.6 


将 


NIAI AJ SINJ =e 


例 


体育 新 闻 





非 体育 新 闻 





J 





J 





K 














IAJ, AJS |N = 






























































96 第 6 章 从 线性 回归 到 逻辑 回归 
表 6.7 
实 例 美国 新 闻 非 美国 新 闻 

1 V 

2 

3 a 

4 Fi 

5 J 

6 v 

7 V 








多 标签 分 类 性 能 衡量 指标 


多 标签 分 类 问题 必须 使 用 不 同 于 单 标 签 分 类 问题 的 性 能 衡量 指标 。 两 个 最 常见 的 性 能 衡 
量 指 标 分 别 是 汉 明 损失 和 杰 卡 德 相似 系数 。 汉 明 损 失 是 不 正确 标签 的 平均 比例 。 如 代码 6.14 
所 示 ， 需 要 注意 的 是 ， 汉 明 损 失 是 一 种 损失 函数 ， 其 完美 得 分 是 0。 杰 卡 德 相 似 系数 也 被 
称 为 杰 卡 德 指数 , 是 预测 标签 和 真实 标签 交集 的 数量 除 以 预测 标签 和 真实 标签 并 集 的 数量 
取 值 范围 0 一 1，1 是 完美 得 分 。 杰 卡 德 相似 系数 的 计算 公式 如 公式 6.5 所 示 : 
|Predicted QT rue| 
|Predicted UT rue| 




























































































~ 



































J (Predicted, True) = (公式 6.5) 


代码 6.14 
# In[1]: 
import numpy as np 


from sklearn.metrics import hamming loss, jaccard_similarity score 


print (hamming loss(np.array([[0.0, 1.0], [1.0, 1.0]]), 
np.array([[0.0, 1.0], 
[1.0, 1.0]]))) 


# Out[1]: 
0.0 


# In[2]: 

print (hamming loss(np.array([[0.0, 1.0], [1.0, 1.0]]), 
np.array([[1.0, 1.0], 
[1.0, 1.0]]))) 


# Out [2]: 
0.25 


# In[3]: 

print (hamming loss(np.array([[0.0, 1.0], [1. 
np.array([[1.0, 1.0], 
[0.0, 1.0]]))) 


# Out[3]: 
0.5 


# In[4]: 
print (jaccard similarity score(np.array([[0. 
np.array([[0.0, 1.0], [1.0, 1.0]]))) 


# Out[4]: 
1.0 


# In[5]: 
print (jaccard similarity score(np.array([[0. 
np.array([[1.0, 1.0], [1.0, 1.0]]))) 


# Out[5]: 
0.75 


# In[6]: 
print (jaccard similarity score(np.array([[0. 
np.array([[1.0, 1.0], [0.0, 1.0]]))) 


# Out[6]: 
0:5 


6.6 ”小结 


响应 
一 般 


它 是 


的 响 
两 个 
我 们 
务 。 


中 的 








在 本 章 中 ， 我 们 讨论 了 泛 化 的 线性 模型 ， 它 们 扩展 了 普通 线性 回归 来 文 持 非 正 态 分 布 
变量 。 泛 化 的 线性 模型 使 用 一 个 连接 函数 来 联系 解释 变量 的 线性 组 合 和 响应 变量 。 和 































































































线性 回归 不 同 ， 其 模型 关系 并 不 一 定 是 线性 的 。 特 别 地 ， 我 们 检验 了 逻辑 连接 函数 ， 
一 个 S 形 函 数 ， 给 定 任何 实数 值 它 都 会 返回 一 个 0 一 1 之 间 的 值 。 














我 们 讨论 了 届 辑 回归 ， 它 是 一 种 使 用 逻辑 连接 函数 来 联系 解释 变量 和 一 个 伯 努 利 分 布 
应 变量 的 泛 化 线性 模型 。 逻 辑 回 归 可 以 用 于 二 元 分 类 ， 它 是 一 种 每 个 实例 必须 分 配给 















































类 中 的 一 个 类 的 任务 。 我 们 使 用 逻辑 回归 来 对 垃圾 短信 和 非 垃 圾 短信 进行 分 类 。 接 着 ， 




















讨论 了 多 类 别 分 类 任务 ， 它 是 一 种 每 个 实例 必须 分 本 


给 一 个 标签 集中 的 一 个 标签 的 任 





我 们 使 用 “一 对 全 ”策略 对 影评 的 情绪 进行 分 类 。 最 后 ， 我 们 讨论 了 多 标签 分 类 ， 其 




















每 个 实例 都 必须 分 配给 一 个 标签 集中 的 一 个 子 集 。 








在 前 面 的 章节 中 ， 我 们 介 


回归 。 在 本 章 中 ， 我 们 将 介 




















斯 是 我 们 将 要 讨论 






































绍 分 类 算法 的 男 一 个 成 员 
斯 定理 和 一 个 朴素 的 假设 : 所 有 的 特征 都 术 
到 第 一 个 生成 模型 。 首 先 ， 我 们 将 介 
生成 模型 和 判别 模型 。 我 们 将 讨论 朴素 贝 叶 斯 和 它 的 假设 ， 并 检验 它 的 党 





第 7 章 
朴素 贝 叶 斯 


了 用 于 分 类 任务 的 两 种 模型 : KK- 近邻 算法 (KNN ) 和 逻辑 
朴素 贝 叶 斯 。 其 名 字 来 源 于 贝 叶 











HEAR PEARL 





他 给 定 的 响应 变量 。 











绍 贝 叶 斯 定 到 




















Lo 接着 








朴素 贝 叶 
， 我 们 将 比较 














我 们 将 使 用 scikit-learn 类 库 来 拟 合 一 个 模型 。 
























































































































































] 变 体 。 最 后 ， 


























7.1 WHEE 
贝 叶 斯 定理 是 一 个 使 用 相关 条 件 的 先 验 知识 来 计算 一 个 事件 概率 的 公式 。 该 定理 由 英 
国 统计 学 家 、 牧 师 托马斯 。 贝 叶 斯 于 18 世纪 发 现 。 贝 叶 斯 从 未 出 版 过 他 的 作品 ， 他 的 手稿 
由 数学 家 理 杏 德 。 普 莱 斯 编辑 出 版 。 贝 叶 斯 定理 如 公式 7.1 R: 
raa Aa) (公式 7.1) 
PB) 
在 公式 7.1 中 ，4 和 8 代表 事件 ，P(4) 是 观察 到 事件 4 的 概率 ，P(B) 是 观察 到 事件 B 


的 概率 。P(4|B) 是 在 观察 到 事件 B 的 同时 又 观察 到 事件 4 的 条 伯 

















们 的 目 























须 找 出 最 可 能 的 标签 4。 


的 








标 是 将 解释 变量 的 特征 映射 到 一 个 离散 的 响应 变量 上 ， 对 于 给 定 的 特征 B， 我 们 必 























一 个 定理 是 基于 公理 和 其 他 定理 被 证 明 为 真 的 数学 


描述 。 








概率 。 在 分 类 任务 中 ， 我 
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让 我 们 来 看 一 个 例子 。 假 设 一 个 病人 表现 出 一 种 特定 疾病 的 症状 ， 








而 且 一 个 医生 对 于 











该 疾病 实施 了 一 项 检测 。 这 个 检测 有 99% 的 召回 率 和 98% 的 特异 性 。 特 异性 用 来 衡量 真 阴 






































检测 。 在 此 处 召回 率 有 时 被 称 为 敏感 性 。 回 顾 前 面 的 章节 内 容 ，99% 的 




















和 


性 比例 ， 或 者 说 真正 的 阴性 实例 被 预测 为 阴性 的 比例 。 特 异性 和 召回 率 经 常用 来 评估 医学 








召回 率 意味 着 99% 








真正 患 病 的 病人 被 预测 为 患 有 该 疾病 。98% 的 特异 率 意味 着 98% 真 正 没 有 患 病 的 病人 被 预 























测 为 不 患 有 该 疾病 。 我 们 同时 假设 该 疾病 很 罕见 ， 总 人 口中 患 有 该 疾病 
































的 人 仅仅 占 0.2%。 


如 果 一 个 病人 的 检测 结果 是 阳性 ， 那 么 他 确实 患 有 该 疾病 的 概率 有 多 大 呢 ? 假 如 给 定 一 个 
































阳性 检测 结果 B， 病 人 患 有 该 疾病 的 条 件 概 率 4 是 多 少 ? 











如 果 我 们 知道 PC(4)、P(B) 以 及 P(B|4) 的 值 ， 我 们 可 以 使 用 贝 叶 斯 定理 来 解决 该 问题 。 




















P(4) 是 患 有 该 病 的 概率 ， 我 们 已 经 知道 该 值 为 0.2%。P(B|4) 或 者 说 给 定 阳性 测试 结果 的 前 
提 下 病人 患 有 该 病 的 概率 是 检测 的 召回 率 0.99。 我 们 最 后 需要 的 是 P(B)， 一 个 阳性 检测 结 









































果 的 概率 。 其 值 等 于 真 阳性 和 假 阳性 结果 的 概率 之 和 ， 如 公式 7.2 所 示 ， 
- 患 病 ” 是 一 个 单独 的 值 ， 而 不 是 “未 ”和 “ 患 病 ” 两 者 的 差 值 : 


P( 阳 性 ) 二 P( 阳 性 | 患 病 )P( 患 病 )+P( 阳 性 | 未 - 患 病 )P( 未 -- 患 







































































需要 注意 的 是 “未 





病 ) AÑ 7.2) 


患 有 该 病 的 病人 被 检测 为 阳性 的 概率 等 于 检测 的 召回 率 0.99。 第 一 项 概率 的 结果 为 检 
测 的 召回 率 和 患 有 该 病 的 概率 0.002 的 乘积 。 不 患 有 该 病 的 病人 被 检测 为 阳性 的 概率 是 检 


























测 特异 性 的 补 余 或 者 0.02。 第 二 项 概率 的 结果 为 检测 特异 性 的 补 余 0.02 
的 补 余 0.998 的 乘积 ， 如 公式 7.3 所 示 : 


阳性 )=0.99 X 0.002+0.02 X 0.998=0.022 
用 我 们 的 事件 重 写 后 的 贝 叶 斯 定理 如 公式 7.4 所 示 : 
P( 阳 性 | 患 病 )P( 患 病 ) 











Pi 


— 






























































P( 患 病 | 阳性 ) 











和 患 有 该 疾病 概率 


(公式 7.3) 


(公式 7.4) 








[= 




















P( 阳 性 





























患 病 )P( 患 病 )+P( 阳 性 | 未 - 患 病 )P( 未 - 患 病 ) 


我 们 已 经 算出 了 公式 中 所 有 的 项 目 值 ， 现 在 我 们 可 以 算出 给 定 阳 性 检测 结果 患 有 该 病 























的 条 件 概率 ， 如 公式 7.5 所 示 : 


0.99x0.002 
0.99 x 0.002 + 0.02 x 0.998 





P( 患 病 | 阳 性 = 0.09 














(公式 7.5) 























检测 结果 为 阳性 的 病人 真正 患 有 该 病 的 概率 少 于 10%， 该 结果 似乎 是 不 正确 的 。 检 测 的 


= 














召回 率 和 特异 率 分 别 为 99% 和 98%， 被 检测 为 阳性 的 病人 不 太 可 能 患 有 该 病 并 不 大 符合 























Wo 虽然 该 项 检测 的 特异 性 和 召回 率 很 接近 ， 但 是 因为 患 有 该 病 的 概率 非常 小 ， 因 此 假 阳 性 
要 比 假 阴 性 更 常见 。 在 1000 个 病人 中 ， 我 们 只 预期 有 两 人 患 有 该 病 。 根 据 99% 的 召回 率 ， 
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我 们 应 该 预期 该 项 检测 能 正 胡 
误 的 预测 另外 大 约 20 个 病人 患 




















有 该 病 。22 个 阳性 预测 中 仅仅 有 9% 的 比例 是 真 阳性 。 


的 探测 出 这 两 名 病人 。 然 而 ， 我 们 也 应 该 预期 到 该 项 检测 会 错 


7.2 生成 模型 和 判别 模型 




















在 分 类 任务 中 ， 我 们 的 目标 是 学 习 














个 模型 的 参数 ， 使 其 能 够 最 优 地 将 解释 变量 的 特 














征 映射 到 响应 变量 。 我 们 在 前 面 章 节 中 讨论 的 所 有 分 类 器 都 是 判别 模型 ， 它 指 的 是 学 习 一 

















个 决策 边界 对 类 进行 判别 。 概率 判别 模型 (例如 风 辑 














Al), 





























概率 判别 模型 会 

会 直接 把 特征 映射 到 类 。 
生成 模型 不 会 直接 学 习 

PQy, x) 进 行 建 模 。 这 等 价 于 对 类 的 概率 和 给 定 类 























个 决策 边界 。 相 反 ， 





















































会 学 习 去 


恨 据 给 定 的 输入 值 去 估计 最 有 可 能 的 类 。 非 概率 判别 模型 (例如 KNN), 


生成 模型 对 特 
的 情况 下 特征 的 概率 进行 建 模 。 也 就 是 说 ， 


估计 条 件 概率 PO). 





征 和 类 的 联合 概率 分 布 








生成 概率 对 类 如 何 生 成 特征 进行 建 模 。 贝 叶 斯 定理 可 以 运用 于 生成 模型 来 估计 给 定 特征 

















的 情况 下 一 个 类 的 条 件 概 率 。 








如 果 在 分 类 任务 中 我 们 的 概率 是 把 特征 映射 到 类 ， 为 什么 要 使 用 
间 步 又 的 方法 呢 ? 为 什么 要 选择 一 个 生成 模型 而 不 是 一 个 判别 模型 呢 ? 其 中 一 个 原 
为 生成 模型 对 类 如 何 生成 数据 进 
行 建 模 ， 生 成 模型 相 比 判别 模型 有 更 大 的 偏差 。 这 个 中 间 步 又 对 模型 








生成 模型 可 以 被 用 于 生成 新 的 数据 实例 。 更 重要 的 是 ， 因 























在 这 些 假 设 前 提 下 ， 生 成 模型 可 以 更 稳健 地 扰乱 训练 数据 ， 并 在 ji 




















个 中 
因 在 于 


种 一 定 需要 
































引入 了 更 多 的 假设 。 
| 练 数 据 很 缺乏 时 比 判 别 

















模型 性 能 更 佳 。 生 成 模型 的 缺点 是 这 些 假设 可 能 会 阻止 生成 模型 进行 学 习 ， 随 着 训练 实例 








数量 的 增加 ， 判 别 模型 的 性 能 要 优 于 生成 模型 。 


7.3 朴素 贝 叶 斯 





























在 本 章 的 第 一 节 中 ， 我 们 描述 了 贝 叶 斯 定理 。 回 顾 贝 叶 斯 定理 的 定义 如 公式 7.6 所 示 : 


P(B| APA) 


P(A| B)= PA 

















(公式 7.6) 


让 我 们 将 贝 叶 斯 定理 重 写 为 对 一 个 分 类 任务 更 自然 的 形式 ， 如 公式 7.7 所 示 : 


— POs Xn [V)PO) 


59) 





P(y|xX1,...,X,) 








(公式 7.7) 


在 公式 7.7 中 , 代表 正 向 类 ，xi 是 实例 的 第 一 个 特征 ，n 是 特征 的 数量 。P(B) 对 于 所 
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有 输入 是 一 个 常量 ， 因 为 在 训练 数据 集中 观测 到 一 个 特定 特征 的 概率 对 于 不 同 的 测试 实例 
来 说 并 不 会 有 所 不 同 ， 因 此 我 们 可 以 忽略 。 这 里 出 现 了 两 个 项 目 ， 先 验 类 概率 PQy) 以 及 条 
件 概率 Pa, .…, xnly)。 朴 素 贝 叶 斯 通过 极 大 化 一 个 后 验 估计 来 估计 这 两 个 项 目 。pQ) 是 训练 
中 每 个 类 出 现 的 频率 。 对 于 类 别 特征 ，P(xily) 是 属于 该 类 的 训练 实例 特征 的 频率 ， 它 通过 
公式 7.8 来 估计 : 

















































































































J 

















p N, 7 
P(x.|y.)= Dw 
(xi [77) i. 


Vj 





(公式 7.8) 




















公式 7.7 的 分 子 是 特征 出 现在 y; 类 训练 实例 中 的 次 数 ， 分 母 是 类 y; 中 所 有 特征 出 现 的 
总 频率 。 朴 素 贝 叶 斯 通过 最 大 概率 预测 类 ， 如 公式 7.9 所 示 : 





























$=argmax, P(y) | PG |y) (公式 7.9) 








需要 注意 的 是 ， 即 使 一 个 朴素 贝 叶 斯 分 类 似 表现 很 好 ， 估 计 的 类 概率 的 准确 率 也 会 很 
低 。 朴 素 贝 叶 斯 的 变 体 最 可 能 在 它们 对 于 分 布 Pet 的 假设 上 有 所 不 同 ， 因 此 他 们 能 够 学 
习 的 特征 类 型 也 有 所 不 同 。 我 们 已 经 讨论 的 变 体 〈 多 项 式 朴素 贝 叶 斯 ) 适合 类 别 特征 。 我 
们 的 项 目 频 率 特 征 在 一 个 语料库 中 将 每 一 个 标示 表示 为 一 个 类 别 变量 。 高 斯 朴素 贝 叶 斯 适 
合 连 续 特 征 ， 它 假设 每 个 特征 对 于 每 个 类 都 符合 正 态 分 布 。 伯 努 利 朴素 贝 叶 斯 适合 于 所 有 
特征 均 为 二 元 值 的 情形 。scikit-learn 类 库 的 GaussianNB、BernoulliNB 和 MultinomialNB 
类 实现 了 这 些 变 体 。 


朴素 贝 叶 斯 的 假设 


该 模型 被 称 之 为 朴素 是 因为 它 假设 对 响应 变量 来 说 所 有 的 特征 都 条 件 独 立 ， 如 公式 7.10 
所 不 : 




























































































P(x; |y) =PO; | y,x)) (公式 7.10) 





需要 注意 的 是 ， 该 假设 不 等 同 于 所 有 的 特征 相互 独立 ， 如 公式 7.11 所 示 : 














P(x;)= P(x; |x,) (公式 7.11) 























该 独立 假设 很 少 为 真 。 然 而 ， 甚 至 当 该 假设 不 成 立时 ， 朴 素 贝 叶 斯 可 以 有 效 地 判别 线 
性 可 分 类 ， 并 且 当 训练 数据 缺乏 时 性 能 通常 优 于 判别 模型 。 除 了 性 能 良好 之 外 ， 朴 素 贝 叶 
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斯 模型 一 般 很 快 ， 同 时 也 易于 实现 。 


考虑 一 个 
报纸 板块 ， 例 








因为 这 些 ， 它 被 广泛 地 使 用 。 
对 新 闻 网 站 文章 的 分 类 任务 。 对 于 一 篇 文章 ， 我 们 的 目标 是 将 它 分 配 到 一 个 


如 “国际 政治 ”““ 美 国政 治 ”“ 科 学 技术 ”或 者 “体育 ?。 朴 素 贝 叶 斯 假设 意味 

































































着 知道 一 篇 文章 属于 体育 板块 ， 和 这 篇 文章 包含 单词 “篮球 ”并 不 会 影响 你 对 单词 “战士 ” 
或 者 单词 “UNC” 出 现在 这 篇 文章 中 的 信心 。 该 假设 在 i 











六 任务 中 并 不 成 立 ， 了 解 一 篇 文章 














来 自 “ 体 育 ” 板 块 , 以 及 它 包 含 单词 “篮球 ”应 该 能 让 我 们 相信 文章 可 能 会 包含 单词 “UNC” 





“NCAA?” FU WIRK e PA”, 可 能 不 会 包含 不 相关 的 和 
































了 解 一 篇 文章 属于 体育 板块 ， 以 及 文章 包含 单词 “ 杜 克 ” 
单词 “犯错 ”和 “过 气 ” 虽然 朴素 贝 叶 斯 的 假设 很 少 成 立 ， 但 假设 是 必需 的 。 没 有 这 些 假 
设 ， 模 型 可 能 会 包含 不 切实 际 数量 的 参数 数量 ， 同 时 假设 也 让 类 条 件 概率 能 直接 从 训练 数 











据 中 估计 。 























和 词 例如 “三 明治 ”或 者 “ 顽 星 ”。 





”应 该 让 我 们 相信 文章 可 能 会 包含 








朴素 贝 叶 斯 也 假设 训练 实例 独立 同 分 布 (iid )， 这 意味 着 训练 实例 相互 独立 ， 并 且 来 


源 于 同一 个 概率 分 布 。 重 复 抛 一 个 便 





会 产生 ii.d FEA, 














每 次 翻转 着 陆 的 可 能 性 都 相同 ， 





任何 翻转 的 结果 都 不 依赖 于 其 他 翻转 的 结果 。 和 条 件 独 立 假设 不 同 ， 该 假设 必须 成 立 来 保 














证 朴素 贝 叶 斯 性 能 良好 。 











7.4 在 scikit-learn 中 使 用 朴素 贝 叶 斯 





我 们 使 用 scikit-leaen 类 库 来 拟 合 一 个 朴素 贝 叶 




















的 不 同 训练 集 上 比较 朴素 贝 叶 




















包含 从 乳房 肿块 的 细 针 吸入 图 片 中 提取 的 特征 ， 该 项 任 








个 描述 细胞 核 的 实 值 特征 来 将 肿块 分 类 为 恶性 或 者 良性 。 














a 






































和 357 AR 





i 
孕 次 数 、 口 服 葡 萄 糖 耐量 试验 、 每 张 压 、 
和 其 他 诊断 ， 以 此 来 预测 一 个 人 是 否 患 有 糖尿 病 。 



































个 非 糖尿 病 实例 。 


代码 7.1 
# In[1] 


smatplotlib inline 


# In[2] 


import pandas as pd 


斯 分 类 器 ， 将 在 两 个 样本 数 逐 渐 增 大 
斯 分 类 器 和 逻辑 回归 分 类 器 的 性 能 。 威 斯 康 星 乳癌 数据 集 














务 是 使 用 每 个 细 针 吸入 图 像 中 30 
该 数据 集 包 含 212 个 恶性 实例 
































实例 。 皮 马 印 第 安 人 糖尿 病 数据 集 任 务 是 使 用 8 个 特征 表示 ， 特 征 包括 怀 
眩 三 头 肌 皮肤 补 皱 厚度 、 身 体质 量 指数 、 人 年龄 
该 数据 集 包 含 268 个 糖尿 病 实例 和 500 

















from sklearn.datasets import load breast cancer 
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from sklearn.linear model import LogisticRegression 


from sklearn.naive bayes import GaussianNB 


from sklearn.model_ selection import train test split 


import matplotlib.pyplot as plt 


X, y = load breast cancer (return X y=True) 


X train, X test, y train, y test = train_test_split(X, y, stratify=y, 


test_size=0.2, random_state=31) 


lr 
nb = GaussianNB () 


LogisticRegression () 


[] 


nb :scores: = [] 


lr scores 


train sizes = range(10, len(X_ train), 25) 





for train_size in train_sizes: 


X slice, _, y slice, = train test split ( 


X train, y train, train size=train size, 


random state=31) 
nb.fit(X_slice, y slice) 


nb_scores.append(nb.score(X test, y test)) 


lr.fit(X_slice, y slice) 


lr_scores.append(lr.score(X test, y test) ) 























stratify=y train, 


label='Logistic 


plt.plot(train_sizes, nb scores, label='Naive Bayes") 
plt.plot(train_ sizes, lr scores, linestyle='--', 
Regression') 

plt.title ("Naive Bayes and Logistic Regression Accuracies") 
plt.xlabel ("Number of training instances") 

plt.ylabel ("Test set accuracy") 

plt.legend() 

# Out[2]: 

<matplotlib.legend.Legend at 0x7ff86c658668> 














如 代码 7.1 所 示 ， 我 们 首先 从 威斯康星 乳癌 数据 集 必 

















inline 人 允许 我 们 直接 在 记事 本 中 绘 民 





























N 








FAR o 

















展示 。 首 先 我 们 使 用 scikit-learn 
loadbreastcancer 便捷 函数 载 入 数据 。 接 着 ， 我 们 使 用 traintestsp1it 便捷 函数 
将 20% 的 实例 分 为 测试 集 。stratify=y train 指定 训练 集合 
正 向 实例 和 负 向 实例 。 如 果 一 致 地 随机 采样 实例 可 能 会 导致 训练 集 和 测试 集中 几乎 没有 少 








魔法 命令 Smatplot1lib 

















测试 集 应 该 有 相同 比 人 








类 库 的 


NAY 
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实例 ， 当 类 的 数量 不 平衡 时 这 非常 重要 ， 我 们 将 使 用 这 个 测试 集 评 估 模 型 。 我 们 再 次 









































traintestsplit 方法 对 剩余 的 实例 进行 多 次 逐渐 增 大 的 划分 ， 并 使 用 它们 去 训练 








LogisticRegression 和 GaussianNB 分 类 器 。 最 后 ， 我 们 绘制 出 分 类 器 的 得 分 。 














在 小 型 数据 集 上 ， 朴 素 贝 叶 斯 分 类 器 通常 性 能 优 于 逻辑 回归 分 类 器 。 朴 素 贝 叶 斯 更 容 

















易 产生 偏差 .这 可 以 防止 其 拟 合 噪 声 。 然 而 ， 偏 差 也 会 阻碍 模型 在 大 数据 集 上 进行 学 习 。 








在 这 个 例子 中 ， 朴 素 贝 叶 斯 分 类 器 在 最 开始 性 能 优 于 逻辑 回归 分 类 器 ， 但 是 当 训 练 集 数量 








增加 时 多 辑 回 归 分 类 器 的 性 能 则 逐渐 提升 ， 如 图 7.1 所 示 。 
朴素 贝 叶 斯 和 逻辑 回归 准确 率 














测试 集 准确 率 





一 一 朴素 贝 叶 斯 
=-=- 逻辑 回归 
0 100 200 300 400 
训练 实数 例 量 
图 7.1 








现在 让 我 们 在 皮 马 印第安 人 糖尿 病 数 据 集 上 比较 逻辑 回归 和 朴素 贝 叶 斯 分 类 器 的 性 
如 代码 7.2 所 示 。 





代码 7.2 

# In[3]: 

df = pd.read_csv('./pima-indians-diabetes.data', header=None) 

y = df[8] 

X = dtl 0; L; 2), 3p 4y Sp 6p 7I] 

X train, X_test, y train, y test = train_test_split(X, y, stratify=y, 
random state=11) 


lr 
nb = GaussianNB () 


LogisticRegression () 


Ir scores = [] 
nb scores = [] 














月 





7.4 在 scikit-learn 中 使 用 朴素 贝 叶 斯 








train sizes = range(10, len(X train), 10) 
for train size in train sizes: 
X slice, _, y slice, _ = train test split( 
X train, y train, train size=train size, stratify=y_ train, 
random_state=11) 
nb.fit(X_slice, y slice) 
nb_scores.append(nb.score(X test, y test)) 
lr.fit(X_ slice, y slice) 
lr_scores.append(lr.score(X test, y test) ) 




















plt.plot (train sizes, nb scores, label='Naive Bayes') 
plt.plot(train_sizes, Ir scores, linestyle='--', label='Logistic 
Regression") 

plt.title("Naive Bayes and Logistic Regression Accuracies") 
plt.xlabel ("Number of training instances") 

plt.ylabel ("Test set accuracy") 

plt.legend() 

# Out[3]: 


<matplotlib.legend.Legend at 0x7ff86cb3eda0> 














uy 

















首先 ， 我 们 使 用 pandas 加 载 了 .csv 文件 。 这 个 .csy 文件 缺少 一 个 数据 头 ， 因 此 我 们 使 
昌 列 索引 将 响应 变量 和 特征 分 隔 开 。 接 着 ， 我 们 创建 了 一 个 分 层 测 试 集 。 而 后 ， 我 们 在 一 
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个 不 断 增 大 的 训练 集 上 训练 和 评估 模型 ， 并 绘制 出 准确 率 。 在 小 型 数据 集 上 朴素 贝 叶 斯 分 
类 器 比 逻 辑 回归 分 类 器 准确 ， 但 是 随 着 数据 集 数量 的 增加 逻辑 回归 分 类 器 的 准确 率 逐 渐 提 
升 ， 如 图 7.2 所 示 。 




















a 
g 





























朴素 贝 叶 斯 和 逻辑 回归 准确 率 


0.75 


册 0.70 
证 
Ht 
af 065 
0.60 
一 一 朴素 贝 叶 斯 
0.55 T ==- 逻辑 回归 





0 100 200 300 400 500 
训练 实数 例 量 


图 7.2 
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7.5 ”小结 























在 本 章 中 ， 我 们 介绍 了 第 一 个 生成 模型 一 朴素 贝 叶 斯 。 我 们 使 用 贝 叶 斯 定理 计算 了 
































一 个 被 检测 为 阳性 的 病人 下 














实 患 有 该 病 的 概率 ， 其 中 使 用 了 关于 测试 性 能 和 相关 条 件 的 知 




















识 。 我 们 还 对 比 了 生成 模型 和 判别 模型 ， 使 用 scikit-learn 类 库 训 练 了 一 个 朴素 贝 叶 斯 分 类 








器 ， 并 对 比 了 这 个 朴素 贝 中 


[斯 分 类 器 和 一 个 判别 模型 的 性 能 。 
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此 ， 理 解决 策 树 非 常 重要 。 


8.1 决策 树 





决策 数 是 一 种 能 够 对 一 个 决策 进行 建 模 的 树 形 
题 ”的 室内 游戏 。 在 “20 个 问题 ”中 ， 有 
不 会 把 该 物体 透露 给 其 他 称 为 提问 人 的 参与 者 。 这 个 物体 应 该 是 一 个 普通 名 词 ， 例 如 “ 吉 
HAYA”, 但 不 能 是 “1969 Gibson Les Paul 定制 款 吉他 ”者 “ 北 ] 


他 ?或 者 “三 














在 本 章 中 ， 我 们 将 讨论 一 种 用 于 分 类 和 回归 
我 们 将 使 用 决策 树 来 创建 一 个 广告 拦截 器 ， 


或 网 页 内 容 。 尽 管 决策 树 很 少 在 实践 


























提问 人 必须 通过 最 多 20 个 问题 来 猜 








能 ”对 于 提 


EN nA 二 天 








是 否 是 一 件 乐 








片 分 类 为 横幅 广告 









































问 人 的 一 个 直观 的 策 
器 ”并 不 会 有 效 地 减少 答案 的 可 
































任务 的 简单 、 非 线性 模型 ， 称 为 决策 树 。 
习 将 一 个 网 页 中 的 及 
FP 被 使 用 ， 但 是 它们 是 更 多 强大 模型 的 组 成 部 分 。 因 



































图 ， 它 们 可 以 类 比 为 一 个 叫 作 “20 个 问 
个 参与 者 称 为 答题 人 ， 他 会 选择 一 个 物体 但 是 




















到 这 个 物 
是 提出 渐进 


本， 提问 的 答案 可 
的 问题 。 一 般 来 说 ， 
能 性 的 数量 。 决 策 树 的 分 支 指 明了 为 了 估计 



































一 个 响应 变量 的 值 T 








答题 人 都 拥有 关于 训练 数据 的 知识 ， 但 是 对 了 


而 被 检查 到 的 最 短 特征 序列 。 


























决策 树 经 常 通过 基于 特征 实例 迭代 地 将 训练 实例 




















我 们 将 在 本 章 

决策 树 涡 
了 测试 的 可 外 
Wl ik— ANE 
o ARM 











肖 后 中 学 习 的 决策 树 。 


























I 试 特征 的 内 部 节点 ， 用 盒子 进行 














输出 。 训 练 实例 基于 测试 结果 被 分 到 不 同 的 子 集 9 




















FE 的 值 是 否 超 出 了 阔 值 。 
1 试 的 实例 将 会 随 着 一 条 边界 3 





















































lE 罗 来 纳 三 明治 ”。 





fi” fF? 或 者 sT 


Pek 


第 一 个 问题 问 “ 它 











继续 类 比 ， 在 “20 个 问题 ”中 ， 提 问 人 和 
训练 实例 来 说 ， 只 有 答题 人 知道 特征 的 值 。 
ISRO PREY. A 8.1 描绘 了 























示 。 这 些 节点 通过 边 来 连接 ， 这 些 边 指明 


一 个 节点 可 能 会 











通过 测试 的 实例 将 会 随 着 一 条 边界 到 达 节 点 的 右 子 节 
| 达 节 点 的 左 子 节点 。 子 节点 将 会 类 似 地 测试 训 
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练 实例 的 子 集 ， 直 到 满足 














个 停止 标准 。 在 分 类 任务 中 ， 决 策 树 的 时节 点 表示 类 别 。 在 回 














归 任务 中 ， 一 个 叶 节 点 包含 多 个 实例 ， 这 些 实例 对 应 的 响应 变量 值 可 以 通过 求 均值 来 估计 











这 个 叶 节 点 对 应 的 响应 变量 值 。 在 决策 树 构建 完成 之 后 ， 对 一 个 测试 实例 进行 预测 只 需要 





























从 根 节点 顺 着 对 应 的 边 到 达 某 个 叶 节点 。 




















观察 动物 ， 而 必须 要 使 


动物 进行 分 类 ， 


entropy=0.0000 


sampl 
value= 






favorite food=Dog food <=0.5000 
entropy=0.918295834054 


favorite food=Cat food <=0.5000 
entropy=0.985228136034 
samples=14 














entropy=0.0000 
samples=6 
value=[6. 0.] 






is grumpy <=0.5000 
entropy=0.811278124459 
samples=8 


plays fetch <=0.5000 
entropy=1.0 
samples=4 


es=4 
[0. 4.] 





entropy=0.0000 
samples=1 
value=[0. 1.] 










samples=3 








entropy=0.0000 
samples=2 
value=[2. 0.] 


8.2 训练 决策 树 














entropy=0.0000 
samples=1 
value=[0. 1.] 








图 8.1 

















我 们 使 用 一 种 称 为 迭代 二 叉 树 3 代 ( ID3 ) 的 算法 ， 该 算法 由 罗斯 。 昆 兰 发 明 ， 是 一 种 














j 于 训练 决策 树 的 优先 算 沪 








。 假 设 你 需要 执行 一 项 分 类 猫 和 狗 的 任务 ， 但 是 ， 你 不 能 直接 



































动物 的 一 些 特征 来 做 出 决策 。 对 于 每 一 个 动物 ， 你 被 告知 该 动物 

















是 否 喜欢 玩 滚 简 ， 该 动物 是 否 脾气 暴躁 ， 以 及 该 动物 最 喜欢 的 3 种 食物 。 为 了 对 一 个 新 的 











决策 树 将 会 在 每 


个 特征 。 连 接 到 下 一 个 节点 的 边 将 依赖 





个 节点 上 检测 








于 该 节点 测试 的 输 




















结果 。 例如 ， 第 一 个 节点 可 





8.2 


yay 
能 会 














训练 决策 树 10 


9 


问 该 动物 是 否 喜欢 玩 滚筒。 如 果 喜 欢 ， 


















































































































































我 们 会 随 着 边 到 达 左 子 节点 ; 如 果 不 喜 欢 ， 我 们 将 随 着 边 到 达 右 子 节点 。 逐 渐 地 ， 一 条 边 
将 会 连接 一 个 叶 节 点 来 指示 该 动物 是 猫 还 是 狗 。 如 表 8.1 所 示 ， 下 列 的 14 个 实例 组 成 了 我 
们 的 训练 数据 。 
表 8.1 
训练 实例 喜欢 玩 滚 简 脾气 暴躁 最 喜欢 的 食物 种 类 
1 是 T 培根 狗 
2 a 是 狗 粮 狗 
3 F 是 HAR 猫 
4 T 是 培根 猫 
5 T F JEAN 猫 
6 T 是 培根 猫 
7 F 是 JEAN 猫 
8 T F 狗 粮 狗 
9 F 是 JEAN 猫 
10 是 T 狗 粮 狗 
11 是 F 培根 狗 
12 T T 猫 粮 猫 
13 是 是 猫 粮 猫 
14 是 是 培根 狗 
从 数据 中 我 们 可 以 看 出 ， 猫 一 般 来 说 比 狗 脾气 暴躁 。 大 多 数 的 狗 玩 深 简 ， 而 大 多 数 的 

















[mi 


别 变量 ， 























手动 地 组 织 这 些 分 类 规则 ， 就 算 对 一 个 小 数据 集 来 说 ， 都 是 很 烦琐 的 。 因 





我 们 将 使 
编码 可 以 将 一 个 尖刀 
我 们 可 以 将 其 表现 为 3 个 二 元 特 
脾气 暴躁 且 喜 欢 猫 粮 的 动物 











猫 拒绝 。 狗 更 喜欢 狗 粮 和 培根 ， 
释 变 量 可 以 轻松 地 转换 为 二 元 值 特征 。“ 



































日 one-hot 算法 来 


























而 猫 则 喜欢 猫 粮 和 培根 。 











最 喜欢 
对 其 进行 编 























的 食物 解释 ”变量 是 一 个 有 
i. 


























上 变量 表示 为 多 个 二 元 特征 





2- 








Eo 从 表格 1! 


ti cr H 





[2 














。 由 于 “最 喜欢 的 
， 我 们 可 以 手动 地 来 组 织 分 























“脾气 暴躁 ”和 “喜欢 玩 滚 简 ” 解 


3 种 可 能 值 的 类 

















类 规则 。 例 如 ， 

















A 





KE AE 

















ID3 算法 来 学 习 这 些 规 则 。 
8.2.1 ”选择 问题 


和 “20 个 问题 ”一 样 ， 决 策 树 通 过 检测 一 个 特征 序列 的 值 来 估计 响应 变量 的 值 。 








只 猫 











, 而 喜欢 玩 滚 简 且 喜欢 培根 的 动物 肯定 是 























只 狗 








回顾 一 下 ， 由 于 变量 有 多 个 值 ，one-hot 
食物 ”有 3 种 可 能 的 状态 


>» 


o 














此 ， 我 们 将 使 用 








哪 
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个 特征 应 该 首先 被 检测 呢 ? 直觉 上 来 说 ， 一 个 能 产 出 只 包含 所 有 猫 和 只 包含 所 有 狗 的 子 集 
的 检测 ， 要 优 于 一 个 产 出 同时 包含 猫 和 狗 的 检测 。 如 果 一 个 子 集 的 成 员 属 于 不 同 的 类 ， 我 
们 依然 无 法 确定 如 何 分 类 实例 。 我 们 也 应 该 避免 创建 那 种 只 会 把 一 只 猫 和 一 直 狗 和 其 余 同 
类 隔 开 的 检测 ， 这 样 的 检测 可 以 类 比 为 在 “20 个 问题 ”的 新 一 轮 中 问 一 个 特定 的 问题 。 这 
样 的 检测 几乎 不 能 分 类 一 个 实例 ， 也 不 会 降低 不 确定 性 。 能 在 最 大 程度 上 降低 分 类 不 确定 
性 的 检测 是 最 好 的 检测 。 我 们 可 以 使 用 一 种 称 为 粮 的 衡量 方式 来 量化 不 确定 性 的 程度 。 灶 
可 以 将 一 个 变量 中 的 不 确定 进行 量化 ， 并 以 比特 为 单位 。 公 式 8.1 Be SE, EA 


aes 
uw 



































































































































































































































RP n ERB, PO) HTH i MRR. b 的 常见 取 值 是 2、e 和 10。 由 于 一 个 小 于 1 
的 数值 的 对 数 为 负数 ， 求 和 为 负数 ， 公 式 将 返回 一 个 正 数 。 
FOD=-》 PG) log, PCs) (公式 8.1) 


i=l 








例如 ， 单 次 投掷 一 个 硬币 上 只 有 两 种 结果 : 朝 上 或 者 朝 下 。 硬币 朝 上 的 概率 是 0.5， 概 率 
朝 下 的 概率 是 0.5。 投 撕 硬 币 的 烂 如 公式 8.2 tas: 
H(X)=-(0.5log, 0.5+0.5log, 0.5)=1.0 (公式 8.2) 


也 就 是 说 ， 两 个 概率 相等 的 输出 结果 〈 朝 上 和 朝 下 ) 只 需要 1 比特 就 可 以 表示 。 投 掷 
硬币 两 次 会 导致 4 种 可 能 的 结果 : 朝 上 朝 上 、 朝 上 朝 下 、 阳 下 朝 上 以 及 朝 下 朝 下 。 每 种 可 
AEE IMA 0.25. BEA Pa Ask 8.3 所 示 ; 

H(X) =-(0.25log, 0.25 + 0.25log, 0.25 + 0.25log, 0.25 + 0.25log, 0.25)=2.0 (公式 8.3) 

WREE NTH AA 0 ThE, RALA En Df ee 
WEAR, [RIN AB kG Ne a. TAH A DAP 1 比特 的 一 小 部 分 来 进行 表示 。 
例如 ， 一 个 不 公平 硬币 两 面 不 相同 ， 但 是 两 面 重量 分 布 不 均 以 至 于 在 一 次 投掷 中 两 面 着 地 
的 概率 不 同 。 假 设 一 个 不 公平 硬币 朝 上 的 概率 是 0.8， 参 下 的 概率 是 0.2. VRE 
公式 8.4 所 示 : 















































































































































H(X) = -(0.8log, 0.8 + 0.2log, 0.2) = 0.72 (公式 8.4) 

BE RAN ZS AF AE RR EER Bp. RRRA PS PP BEG 
但 是 由 于 其 中 一 种 结果 出 现 的 次 数 更 多 ， 我 们 并 不 会 完全 不 确定 输出 结果 。 

我 们 来 计算 分 类 一 种 未 知 动物 的 焙 。 如 果 动 物 分 类 训练 数据 中 的 猫 和 狗 的 数量 相等 ， 

同时 我 们 并 不 了 解 关于 动物 的 其 他 信息 ， 决 策 的 烂 等 于 1。 关 于 动物 我 们 所 了 解 的 仅仅 是 ， 

它 是 一 只 猫 或 者 是 一 只 狗 。 就 如 投掷 一 枚 硬币 一 样 ， 所 有 结果 出 现 的 可 能 性 相同 。 然 而 ， 
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我 们 的 训练 输出 ， 包 含 6 只 狗 和 8 只 猫 。 如 果 我 们 完全 不 了 解 未 知 动物 的 其 他 信息 ， 决 策 
WIRTH DA cH SSK 8.5 算出 : 












































TE TE O.. l 
H(X) =- 24 pay -0.99 (公式 8.5) 
9 (< Ew 14 on | a 








由 于 猫 更 为 常见 ， 我 们 对 结果 的 不 确定 性 稍 有 降低 。 现 在 让 我 们 找 出 对 分 类 动物 最 有 帮 
助 的 特征 ， 也 就 是 说 ， 我 们 来 找 出 能 把 信 降 到 最 低 的 特征 。 我 们 可 以 检测 “喜欢 玩 深 简 ” 特 
征 ， 并 将 训练 实例 分 为 爱 玩 深 简 的 实例 和 不 爱 玩 深 简 的 实例 。 这 项 检测 将 产 出 两 个 子 集 ， 如 
图 8.2 所 示 。 























































plays fetch <=0.5000 
entropy=0.985228136034 
samples=14 


entropy=0.7642 
samples=9 
value=[7. 2.] 






entropy <=0.7219 
samples=5 
value=[1. 4.] 









图 8.2 








决策 树 经 常 可 视 化 为 类 似 流程 图 的 图 表 。 图 8.2 中 最 顶部 的 方 格 是 根 节点 ， 它 包含 我 
们 所 有 的 训练 实例 ， 同 时 也 指明 了 所 有 需要 检测 的 特征 。 在 根 节点 处 ， 我 们 没有 从 训练 集 
中 删除 任何 的 实例 ， 此 时 的 精 逼 近 0.99。 根 节点 检测 了 “喜欢 玩 深 简 ”特征 。 回 顾 一 下 我 
们 将 这 个 布尔 解释 变量 转换 为 一 个 二 元 值 特征 。“ 喜 欢 玩 深 简 ”特征 等 于 0 的 训练 实例 分 到 
根 节 点 的 左 子 节点 ， 而 喜欢 玩 深 简 的 训练 实例 动物 分 到 根 节点 的 右 子 节点 。 左 子 节 点 包含 
一 个 训练 实例 的 子 集 ， 其 中 包含 7 只 不 喜欢 玩 深 简 的 猫 和 两 只 不 喜欢 玩 深 简 的 狗 。 该 节点 
炉 的 计算 如 公式 8.6 tas: 
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SOIN 


log, ; = 0.76 (公式 8.6) 
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右 子 节点 包含 一 个 子 集 ， 其 中 包含 一 上 只 喜欢 玩 滚 简 的 猫 和 4 只 喜欢 玩 深 简 的 狗 。 该 节 
FRG AT hE BN ZA SK 8.7 所 示 : 


























1 1 4 4 
H(X)=-| -1 2] =0.72 (公式 8.7) 
(X) (iog: tiog, 4 | 公式 





除了 “喜欢 玩 深 简 ”特征 以 外 ， 我 们 还 会 检测 “脾气 暴 距 ”特征 。 该 项 检测 产 出 的 树 
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如 图 8.3 Prax. MB 的 树 一 样 ， 未 通过 检测 的 实例 治 着 左边 线 分 到 左 子 节点 ， 通 过 检 
测 的 实例 沿 着 右边 线 分 到 右 子 节点 。 
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is grumpy <=0.5000 
entropy=0.985228136034 
samples=14 





entropy=0.9183 entropy=0.8113 
samples=6 samples=8 
value=[2. 4.] value=[6. 2.] 





























) 类 ， 如 图 8.4 中 的 树 所 示 。 





我 们 也 可 以 通关 














favorite food=cat food <=0.5000 
entropy=0.985228136034 
samples=14 


entropy=0.8113 entropy=0.0000 
samples=8 samples=6 
value=[2. 6.] value=[6. 0.] 








信息 增益 


检测 动物 是 否 喜 欢 猫 粮 会 产 出 两 个 子 集 ， 其 中 一 个 子 集 包含 6 只 猫 和 0 Rž, MN 0, 
另 一 个 子 集 包含 两 只 猫 和 6 RYJ, HAD 0.811。 我 们 如 何 来 衡量 哪 一 项 检测 最 能 减少 我 们 对 
于 分 类 的 不 确定 性 呢 ? 计算 所 有 子 集 焙 的 均值 似乎 是 一 种 衡量 烂 减少 的 可 行 方式 。 在 这 个 
例子 中 ， 由 猫 粮 检测 产 出 的 子 集 拥有 最 低 的 平均 米 。 直 觉 来 说 ， 该 项 检测 似乎 是 最 有 效 的 ， 
因为 我 们 使 用 它 来 区 分 出 了 几乎 半数 的 训练 实例 。 

然而 ， 选 择 能 产 出 最 低 平 均 炉子 集 的 检测 会 产 出 一 个 次 优 树 。 例 如 ， 假 设 一 项 检 泊 
产 出 一 个 包含 两 只 狗 和 0 只 猫 的 子 集 ， 而 另 一 个 子 集 包含 4 只 狗 和 8 只 猫 。 第 1 个子 集 的 
WHMIS 8.8 所 示 。 注 意 到 第 2 项 由 于 其 没有 定义 而 被 省 略 : 
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H(X)= -(Ft08, 5 = 0.0 (公式 8.8) 
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第 2 SFG ZA TK 8.9 所 示 : 





4 4 8 8 
H(X)= 1 FF =0.92 (公式 8.9) 
(x) k 12 12 82 | A 














子 集 的 平均 焙 为 0.459， 但 是 包含 最 多 实例 的 箭 几乎 有 1 比特 。 这 可 以 类 比 为 在 “二 十 
个 问题 ”的 一 开始 就 问 特定 的 问题 。 如 果 我 们 足够 幸运 ， 就 可 以 在 开始 几 次 尝试 之 后 就 获 
胜 ， 但 是 也 很 有 可 能 我 们 浪费 了 很 多 提问 的 机 会 而 没有 降低 很 多 的 可 能 。 相 反 ， 我 们 可 以 
使 用 一 个 称 为 信息 增益 的 指标 来 衡量 箭 的 减少 。 信 息 增 益 的 计算 如 公式 8.10 所 示 ， 表 示 的 
EPAR 记 D 和 子 节 点 的 加 权 平 均 糯 之 间 的 差别 。7 是 实例 的 集合 ，a 是 检测 中 使 用 
的 特征 : 


































































































{xeTlx, =v} 


IG(T,a) = H(T) » 加 


vevals(a) 





A({xeT|x,=v}) (公式 8.10) 








公式 8.10 H X, e vals(a) 表示 实例 x 对 应 的 特征 a WA. X eT |X, =v RÍE a 的 
EF v KRAZE. H(X eT |X, =v) 是 特征 a 的 值 等 于 v KARTER. K 8.2 包 
含 了 所 有 测试 的 信息 增益 。 在 此 ， 因 为 使 用 猫 粮 检测 的 信息 增益 增加 最 多 ， 它 依然 是 最 优 
检测 。 
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表 8.2 
人 测 ADAG IG 第 aie 第 二 个 权 均 TA 
aoe BRAI) 子 节点 炳 Hi i i 增益 
EJ Ja * = 
喜欢 玩 滚 简 ? 0.9852 0.7642 0.7218 Qe iar eae 5/14 0.2361 
* 33 x = 
脾气 暴躁? 0.9852 0.9183 0.8113 02183 n T 8/14= | 0.1280 
最 喜欢 的 食物 = 0.8113 * 8/14 + 0.0 * 6/14 = 
猫 粮 0.9852 0.8113 0 436 0.5216 
最 喜欢 的 食物 = 0.8454 * 11/14 + 0.0 * 3/14 = 
狗 粮 0.9852 0.8454 0 (6649 0.3210 
最 喜欢 的 食物 = 0.9183 * 9/14 + 0.9710 * 5/14 = 
培根 0.9852 0.9183 0.971 os 0.0481 
现在 让 我 们 在 决策 树 中 增加 另 一 个 节点 。 由 该 项 检测 产生 的 一 个 子 节点 是 一 个 只 包含 
猫 的 叶 节 点 。 男 一 个 节点 依然 包含 两 只 猫 和 6 只 狗 。 我 们 将 对 这 个 节点 增加 一 项 检测 。 哪 




















一 项 剩余 特征 能 最 大 程度 地 减少 不 确定 性 呢 ? K 8.3 包含 了 对 所 有 可 能 检测 的 信息 增益 。 
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表 8.3 
| SRS 点 :| 第 三 个 点 
A 测 KFA on ey 加 权 平 均 IG 
Hi Hi 
喜欢 玩 滚 简 0.8113 1 0 1.0 * 4/8 +0 * 4/8 =0.5 0.3113 
脾气 暴躁 0.8113 0 1 0.0 * 4/8 + 1* 4/8 =0.5 0.3113 
最 喜欢 的 食物 = 0.9710 * 5/8 + 0.0 * 3/8 = 
狗 粮 0.8113 0.9710 0 0.6069 0.2044 
最 喜欢 的 食物 = 0.0 * 3/8 + 0.9710 * 5/8 = 
培根 0.8113 0 0.9710 0.6069 0.2044 
BA RM AB SS HAO 比特 的 子 集 ， 但 是 “脾气 暴躁” 和 “喜欢 玩 滚 简 ” 检 测 
会 产 出 最 大 的 信息 增益 。ID3 会 通过 随机 选择 一 个 最 佳 从 测 来 打破 平局 。 我 们 将 选择 “ 脾 

















气 暴躁 ”进行 检测 ， 该 项 检测 会 将 父 节 点 中 包含 的 8 个 实例 分 为 一 个 包含 4 只 狗 的 叶 节 点 ， 
以 及 一 个 包含 两 只 猫 和 两 只 狗 的 叶 节 点 。 图 8.5 描述 了 目前 决策 树 的 结构 。 


favorite food=Cat food <=0.5000 
entropy=0.985228136034 
samples=14 
























































is grumpy=0.5000 entropy=0.0000 
entropy=0.811278124459 samples=6 
samples=8 value=[6. 0.] 








entropy=0.0000 plays fetch <=0.5000 
samples=4 entropy=1.0 
value=[0. 4.] samples=4 





图 8.5 
现在 我 们 将 选择 另 一 个 解释 变量 来 检测 子 节点 的 4 个 实例 。 剩 余 的 检测 ,“ 最 喜欢 的 食 





























物 = 培根 ”“ 最 喜欢 的 食物 = WR” UR “SSR”, 都 会 产 出 一 个 包含 一 只 狗 或 
只 猫 的 叶 节 点 ， 以 及 一 个 包含 余下 动物 的 节点 。 也 就 是 说 ， 剩 余 的 检测 会 产 出 相同 的 信息 
增益 ， 如 表 8.4 所 示 。 
























































表 8.4 
hr 测 KERA | BATERA | BATEA | 加 权 平 均 | 信息 增益 
喜欢 玩 滚 简 1 0.9183 0 0.688725 | 0.311275 
最 喜欢 的 食物 = 狗 粮 1 0.9183 0 0.688725 | 0.311275 
最 喜欢 的 食物 = 培根 1 0 0.9183 0.688725 | 0.311275 

















我 们 将 随机 选择 “喜欢 玩 滚 简 ” 来 检测 产 出 一 个 包含 一 具 狗 的 叶 节 点 和 一 个 包含 两 具 
猫 和 一 只 狗 的 叶 节 点 。 剩 余 的 两 个 特征 
来 检测 喜欢 狗 粮 的 动物 。 两 项 检测 都 会 产 



































点 和 一 个 包含 两 只 猫 











终 的 结构 。 











8.2 训练 决策 树 

















Es 我 们 可 以 用 来 检测 喜欢 培根 的 动物 ， 
出 相同 的 子 集 ， 并 创建 一 个 只 包含 一 



































favorite food=Cat food <=0.5000 
entropy=0.985228136034 
samples=14 












is grumpy=0.5000 entropy=0.0000 
entropy=0.811278124459 samples=6 
samples=8 value=[6. 0.] 


entropy=0.0000 
samples=4 
value=[0. 4.] 






favorite food=Dog food <=0.5000 
entropy=0.918295834054 
samples=3 


plays fetch <=0.5000 
entropy=1.0 
samples=4 






entropy=0.0000 
samples=1 
value=[0. 1.] 









entropy=0.0000 
samples=2 
value=[2. 0.] 


entropy=0.0000 
samples=1 
value=[0. 1.] 









接 下 来 ， 我 们 对 表 8. 








图 8.6 


包含 的 测试 数据 中 的 动物 进行 分 类 。 
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或 者 可 以 用 

















只 狗 的 叶 节 
的 叶 节 点 。 我 们 将 随机 选择 检测 喜欢 狗 粮 的 动物 ， 图 8.6 是 决策 树 最 



































表 8.5 

测试 实例 喜欢 玩 滚 简 脾气 暴躁 最 喜欢 的 食物 类 别 
1 是 F 培根 狗 
2 是 是 狗 粮 狗 
3 T 是 狗 粮 猫 
4 T 是 培根 猫 
5 T qi 猫 粮 猫 
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让 我 们 对 第 一 个 动物 进行 分 类 ， 第 1 个 动物 喜欢 玩 滚 简 ， 并 且 不 经 常 脾气 暴躁 ， 并 且 
喜欢 培根 。 由 于 该 动物 最 喜欢 的 食物 不 是 猫 粮 ， 因 此 我 们 将 到 达 根 节点 的 左 子 节 点 。 由 于 
动物 并 不 脾气 暴躁 ， 因 此 我 们 将 到 达 第 2 级 节点 的 子 节点 。 这 是 一 个 只 包含 狗 的 叶 节 点 ， 
我 们 已 经 正确 地 将 这 个 实例 进行 了 分 类 。 为 了 将 第 3 个 测试 实例 分 类 为 一 只 猫 ， 我 们 首先 
到 达 根 节点 的 左 子 节点 ， 然 后 到 第 2 级 节点 的 右 子 节点 ， 接 着 到 达 第 3 级 节点 的 左 节点 ， 
最 后 到 达 第 4 级 节点 的 右 子 节点 。 


ID3 算法 并 不 是 唯一 能 用 于 训练 决策 树 的 算法 。C4.5 算法 是 ID3 的 一 个 修改 版 本 ， 它 
能 够 和 连续 解释 变量 一 起 使 用 ， 同 时 能 为 特征 提供 缺失 的 值 。C4.5 算法 也 可 以 用 于 给 树 剪 
枝 。 剪 枝 通 过 使 用 叶 节 点 替代 几乎 不 能 对 实例 进行 分 类 的 分 支 来 减少 树 的 体积 。CART 算 
法 是 另 一 种 支持 剪 枝 的 学 习 算 法 ， 它 同时 也 是 scikit-leam 类 库 用 来 实现 决策 树 的 算法 。 现 
在 我 们 已 经 有 了 一 些 对 ID3 算法 本 身 和 对 其 能 解决 问题 的 了 解 ， 我 们 将 使 用 scikit-learn 类 
库 来 创建 决策 树 。 


8.2.2 ”基尼 不 纯度 


在 上 一 节 内 容 中 ， 我 们 通过 创建 能 产 出 最 大 信息 增益 的 节点 来 创建 一 个 决策 树 。 另 一 
个 用 于 学 习 决策 树 的 常用 启发 性 算法 是 基尼 不 纯度 ， 它 能 用 来 衡量 一 个 集合 中 类 的 比例 。 
基尼 不 纯度 的 定义 如 公式 8.11 所 示 ， 其 中 j 是 类 的 数量 ，; 是 节点 对 应 的 实例 子 集 ，PGiID 
是 从 节点 的 子 集中 选择 一 个 属于 类 i 元 素 的 概率 : 
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i 
Gini(t) =1- >》 PGD? (公式 8.11) 


i=l 











直观 地 ， 当 集合 中 所 有 元 素 都 属于 同一 类 时 ， 由 于 选择 一 个 元 素 属 于 这 个 类 的 概率 都 
等 于 1， 因 此 基尼 不 纯度 应 该 为 0。 和 灶 一 样 ， 当 每 个 被 选择 的 类 概率 都 相等 时 基尼 不 纯度 
达到 最 大 值 。 基 尼 不 纯度 的 最 大 值 依赖 于 其 依赖 的 可 能 类 的 数量 , 具体 计算 方法 如 公式 8.12 
所 示 : 
















































































Gi Ne (公式 8.12) 

n 
我 们 的 分 类 问题 中 包含 两 个 类 ， 因 此 基尼 不 纯度 的 最 大 值 等 于 1/2. scikit-learn 类 库 同 
时 支持 决策 树 使 用 信息 增益 和 基尼 不 纯度 。 没 有 一 个 严格 的 规则 决定 何 时 应 该 使 用 哪个 衡 
量 标 准 ， 在 实际 使 用 中 ， 两 个 衡量 标准 经 常会 产 出 类 似 的 结果 。 和 机 器 学 习 中 的 很 多 决策 
算法 一 样 ， 我 们 最 好 使 用 两 种 标准 来 训练 模型 并 比较 模型 的 性 
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8.3 使 用 scikit-learn 类 库 创建 决策 树 








我 们 使 用 决策 树 来 创建 一 个 能 屏蔽 网 页 横幅 广告 的 软件 ， 这 个 软件 将 预测 一 个 网 页 中 


的 每 一 张 
我 们 将 使 
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ml/datasets/Internet+ 
的 比例 是 不 均衡 的 ，459 张 图 片 是 广告 ， 另 外 2820 张 图 片 是 文章 内 容 。 
以 从 非 均 衡 类 比例 


练 实例 是 否 值得 之 前 , 我们 将 在 一 




























































































是 一 个 广告 还 是 文章 内 容 。 被 分 类 为 广告 的 图 片 将 会 从 网 页 中 被 移 除 。 
| 因特网 广告 数据 集 来 训练 一 个 决策 树 , 该 数据 集 可 以 从 http://archive.ics.uci.edu/ 
-Advertisements 进行 下 载 ， 其 中 包含 3279 张 图 片 的 数据 。 该 数据 集中 类 








决策 树 学 习 算 法 可 


的 数据 中 产 出 有 偏 树 。 在 我 们 决定 使 用 过 取样 或 者 降 采 样 实例 来 平衡 训 
个 不 变 的 数据 集 上 衡量 模型 。 解 释 变 量 包括 图 片 的 维度 、 




















网 页 URL 中 的 文字 、 图 片 URL 中 的 文字 、 图 片 的 alt 属性 文字 、 图 片 的 anchor 属性 文字 、 


以 及 围绕 
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量 出 现 的 频 

















片 标签 



























































达到 最 大 准确 











代码 8.1 
tla 
rt panda 


# In 
impo 
from 
from 
from 
from 


from 


df = 


S 


klearn 


klearn 





klearn. 


klearn. 


klearn. 











的 文字 窗 。 响 应 变量 是 图 片 的 类 别 。 解 释 变 量 已 经 被 转换 为 特征 。 前 3 
个 特征 是 实数 ， 它 们 分 别 是 图 片 的 宽度 、 高 度 和 长 宽 比 的 编码 数值 。 余 下 的 特征 对 文字 变 
进行 二 元 项 编码 。 在 下 面 的 例子 中 ， 我 们 将 使 用 网 格 搜 索 来 找 出 能 使 决策 树 








率 的 超 参 数 ， 并 在 一 个 测试 集 上 衡量 该 决策 树 的 性 能 ， 妇 

















s as pd 

tree import DecisionTreeClassifier 
.model selection import train test split 
.metrics import classification report 
pipeline import Pipeline 

grid_search import GridqSearchCV 


pd.read_csv('./ad.data', header=None) 


explanatory variable columns = set(df.columns.values) 


代码 8.1 所 示 。 


explanatory variable columns.remove (len (df.columns.values) -1) 


response variable column = df[len(df.columns.values)-1] # 











The last column 


describes the classes 

y= [1 if e == 'ad.' else 0 for e in response variable column] 
X = df[list (explanatory variable columns) ].copy() 
X.replace(to_replace=' *?', value=-1, regex=True, inplace=True) 
X: 


_train, X test, y train, 





pipeline = P 


ipeline([ 


y_test = train test_split (X, y) 
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E eri 
] ) 
parameters = { 


'clf max_depth': ( 


'clf min samples split': 
'clf min samples leaf': 


grid searc 





£1") 
h.fit(X train 


scoring= 
grid_searc 


best parameters 





print ('Best score: %0.3 
print ('Best parameters 
for 


print ('t%s: @r' & ( 


predictions 


print (classification re 





Efi): 

Fitting 3 folds for eac 
[Parallel (n_jobs=-1)]: 
[Parallel (n_jobs=-1)]: 
0.887 

Best parameters set: 
tclf max depth: 150 
tclf min _samples leaf: 


# ou 


Best score: 


tclf min samples split 


precision 

0 0.98 

1 05392 

avg / total 0.97 




















DecisionTreeClassifier(criterion=' 


首先 我 们 使 用 pandas 库 读 取 了 .csv 文件 
引 将 最 后 一 列 包 含 响 应 变量 的 数据 和 其 他 列 分 
码 为 负 向 类 。 超 出 四 分 之 一 的 实例 缺少 了 至 少 一 个 
和 一 个 问号 来 标注 。 我 们 使 用 -1 来 替换 这 些 缺 失 的 值 ， 但 是 也 可 





= 


a 





L507 1357 
(2, 


(1, 


160), 
3), 
24-3) 


, y train) 


phs 


set: ') 


param name in sorted (parameters .keys()): 


grid_search.predict (X_test) 


port(y test, predictions) ) 


h of 18 candidates, 





grid_search.best_score_ 


ntropy') ) 


grid_search.best_ estimator .get params () 


) 


totalling 54 fits 


Done 42 tasks | elapsed: 5.48 
Done 54 out of 54 | elapsed: 
1 
3 
recall f1-score support 

0.99 0.98 717 

0.83 0.87 103 

0.97 0.97 820 

















。 这 个 .csv 文件 


没有 表 头 行 ， 





























。 我 们 将 广 


pI 
























































如 ， 我 们 可 以 使 用 平均 高 度 值 





来 替换 缺失 的 高 度 什 




















创建 了 一 个 管道 和 

















h = GridSearchCV(pipeline, parameters, n_jobs=-1, verbose=1, 


param name, best parameters[param_name]) ) 


6.6s finished 


因此 我 们 使 用 索 
告 编码 为 正 癌 类 ， 文 章 内 容 编 





LEA 








像 维 度 的 值 ， 这 些 缺 失 的 值 使 用 空格 














以 来 估算 这 4 


缺失 值 。 例 

















。 我 们 将 数据 分 割 为 训练 集 和 测试 


个 DecisionTreeClassifier 类 的 实例 。 我 们 将 critertion* 


BE 


ARN» 
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键 字 参数 设置 为 entropy 来 使 用 信息 增益 启发 性 算法 来 创建 决策 树 。 接 着 ,我 们 为 网 格 
BREE SESAT. RATÉ GridSearchcv 设置 为 去 最 大 化 模型 的 Fl 得 分 。 分 类 器 
在 训练 数据 中 探测 到 了 超过 80% 的 广告 图 片 ， 同 时 其 预测 为 广告 的 图 片 事 实 上 也 为 广告 的 
比例 逼近 92%。 总 的 来 说 ， 该 模型 的 性 能 是 较为 良好 的 。 在 后 续 的 内 容 中 ， 我 们 将 尝试 去 
修改 模型 以 提升 其 性 能 。 


决策 树 的 优点 和 缺 乓 


和 决策 树 相 关 的 优 缺 点 和 我 们 已 经 讨论 过 的 其 他 模型 有 所 不 同 ， 决 策 树 很 易于 使 用 。 
和 其 他 的 学 习 算 法 不 同 ， 决 策 树 并 不 要 求 对 数据 进行 标准 化 。 虽 然 决 策 树 可 以 容忍 特征 
值 的 缺失 ，scikit-learn 类 库 中 目前 对 决策 树 的 实现 方式 并 不 能 容忍 特征 值 的 缺失 。 决 策 树 
可 以 学 习 去 忽略 同 任务 无 关 的 特征 ， 也 可 以 用 来 决定 哪些 特征 是 最 有 用 的 。 决 策 树 支持 
多 输出 任务 ， 同 时 单个 决策 树 可 以 被 用 于 多 元 分 类 任务 而 无 需 使 用 〈 例 如 “一 对 多 ”这 
样 的 策略 )。 小 型 决策 树 可 以 使 用 scikit-learn 类 库 tree 模块 中 的 export graphviz 
函数 轻松 地 解释 和 可 视 化 。 

和 我 们 已 经 讨论 过 的 大 部 分 其 他 模型 一 样 ， 决 策 树 属于 勤奋 学 习 模 型 。 勤 奋 学 习 模 型 
在 用 于 估计 测试 实例 的 值 之 前 ， 需 要 从 训练 数据 中 创建 一 个 输入 不 相关 模型 ， 但 是 一 旦 模 
型 创建 之 后 就 可 以 相对 较 快 地 进行 预测 。 相 反 ， 例 如 KNN 算法 这 样 的 懒惰 学 习 模 型 延迟 
了 所 有 的 泛 化 能 力 ， 直 到 它们 被 用 于 实际 的 预测 中 。 懒 惰 学 习 模 型 不 会 花 时 间 用 来 训练 ， 
但 是 和 勤奋 学 习 模型 相 比 预测 的 过 程 通常 较 慢 。 
和 我 们 已 经 讨论 过 的 许多 模型 相 比 ， 决 策 树 更 容易 过 拟 合 。 这 是 因为 决策 树 学 习 算 法 
会 产 出 完美 拟 合 每 一 个 训练 实例 的 巨型 复杂 的 决策 树 模 型 , 而 无 法 对 真实 的 关系 进行 泛 化 。 
有 几 项 技巧 可 以 用 于 缓和 决策 树 中 的 过 拟 合 问 题 。 剪 枝 是 一 种 常用 的 策略 ， 它 会 移 除 决策 
树 中 一 些 过 深 的 节点 和 叶子 ， 但 是 该 项 技巧 并 未 在 scikit-learn 类 库 中 被 实现 。 然 而 ， 我 们 
可 以 通过 设置 决策 树 的 最 大 深度 ， 或 者 只 在 训练 实例 数量 超出 某 个 闵 值 时 才 创 建 子 节点 这 
样 的 预 前 枝 方法 来 达到 类 似 的 效果 。DecisiontreeClassifier 类 和 DecisionTree- 
Regressor 类 都 提供 了 用 于 设置 这 些 限 制 的 关键 字 参 数 。 另 一 项 用 于 减少 过 拟 合 的 技巧 
是 从 训练 数据 和 特征 的 子 集中 创建 多 棵 决策 树 ， 这 些 模 型 的 集合 称 为 一 个 集成 。 下 一 章 内 
容 中 ， 我 们 将 创建 一 个 被 称 为 随机 森林 的 决策 树 集合 。 

高 效 的 决策 树 算 法 (例如 ID3 算法 ) 是 贪 焚 算 法 ， 它 们 通过 做 出 局 部 最 优 决 策 来 高 效 
地 学 习 ， 但 并 不 保证 能 产 出 全 局 最 优 树 。ID3 算法 通过 选择 一 个 特征 序列 进行 测试 来 构造 
一 棵 树 。 每 一 个 特征 因 其 在 一 个 节点 中 相 比 其 他 变量 更 能 减少 不 确定 性 而 被 选择 。 然 而 ， 
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为 了 找 出 全 局 最 优 树 很 有 可 能 需要 局 部 次 优 检 测 。 在 我 们 的 玩具 例子 中 ， 由 于 我 们 保留 了 
所 有 的 节点 因此 树 的 尺寸 并 不 成 为 问题 。 然 而 在 一 个 实际 应 用 中 ， 树 的 成 长 可 能 受到 剪 校 


和 其 他 类 似 机 制 的 限制 。 将 树 剪 枝 为 不 同 的 形状 将 会 产 出 不 同性 能 的 树 。 在 实际 应 用 中 ， 
I 信息 增益 或 者 基尼 不 纯度 启发 性 算法 指导 的 局 部 最 优 决 策 往往 会 产 出 可 接受 的 决策 树 。 


8.4 小 结 































































































在 本 章 内 容 中 ， 我 们 学 习 了 一 种 用 于 分 类 和 回归 任务 的 被 称 为 决策 树 的 简单 非 线 性 模 
型 。 和 室内 游戏 一 一 “20 个 问题 ”类 似 ， 决 策 树 由 一 系列 检测 测试 实例 的 问题 序列 组 成 ， 
决策 树 的 分 支 终 止 于 一 个 能 指明 响应 变量 预测 值 的 叶子 。 我 们 讨论 了 如 何 使 用 ID3 算法 来 
训练 决策 树 ， 其 过 程 为 迭代 地 将 训练 实例 分 割 为 可 以 减少 我 们 对 于 响应 变量 值 不 确定 性 的 
子 集 。 我 们 使 用 了 决策 树 来 预测 网 页 中 的 某 张 图 片 是 否 是 横幅 广告 。 在 下 一 章 中 ， 我 们 将 
介绍 使 用 估计 器 集合 对 关系 进行 建 模 的 方法 。 




































































































































































第 9 章 
集成 方法 : 从 决策 树 到 随机 森林 



































一 个 集成 指 的 是 估计 器 的 组 合 ， 其 性 能 要 优 于 其 中 任何 一 个 组 件 。 在 本 章 中 ， 我 们 将 
介绍 3 种 创建 集成 的 方法 : 套 袋 法 、 推 进 法 和 堆 芭 法。 首先 ， 我 们 将 把 套 袋 法 运用 于 上 一 
章 中 介绍 的 决策 树 去 创建 一 个 称 为 随机 森林 的 强大 集成 。 接 着 ， 我 们 将 介绍 推进 法 和 流行 
AdaBoost 算法 。 最 后 ， 我 们 将 使 用 堆 装 法 从 异类 基础 估计 器 创建 集成 。 














































































































9.1 Bak 




















自发 聚集 或 者 套 袋 法 ， 是 一 种 能 减少 一 个 估计 器 方差 的 集成 元 算法 。 套 袋 法 可 以 用 于 
分 类 任务 和 回归 任务 。 当 组 件 估计 器 为 回归 器 时 ， 集 成 将 平均 它们 的 预测 结果 。 当 组 件 佑 
计 器 为 分 类 器 时 ， 集 成 将 返回 模 类 。 

套 袋 法 能 在 训练 数据 的 变 体 上 拟 合 多 个 模型 。 训 练 数据 的 变 体 使 用 一 种 称 为 自发 重 采 
样 的 流程 来 创建 。 通 常 来 说 ， 仅 仅 使 用 分 布 的 一 个 样本 来 估计 一 个 未 知 概率 分 布 的 参数 是 
很 有 必要 的 。 我 们 可 以 使 用 这 个 样本 来 计算 一 个 统计 数值 ， 但 是 这 个 统计 数值 将 会 随 我 们 
恰巧 取 到 的 样本 而 变化 。 自 发 重 采 样 是 一 种 估计 统计 数值 不 确定 性 的 方法 。 当 且 仅 当 样 本 
中 的 观测 值 被 独立 地 选取 时 ， 该 方法 才能 被 使 用 。 自 发 重 采 样 通过 重复 地 对 原 采 样 进行 奉 
换 进 行 采样 来 产 出 采样 的 多 个 变 体 。 所 有 的 变 体 采 样 将 具有 和 原 采 样 相同 数量 的 观测 值 ， 
同时 任何 一 个 观测 值 可 能 会 包含 多 次 或 零 次 。 我 们 可 以 通过 这 些 变 体 的 每 一 个 计算 我 们 的 
统计 数值 ， 并 使 用 这 些 统计 数据 通过 创建 一 个 置信 区 间或 者 计算 标准 误差 来 估计 我 们 估计 
中 的 不 确定 性 。 我 们 来 了 解 一 个 例子 ， 如 代码 9.1 所 示 。 


代码 9.1 
# In[1]: 
import numpy as np 
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# Sample 10 integers 
sample = np.random.randint(low=1, high=100, size=10) 


print ('Original sample: %s' % sample) 


print ('Sample mean: %s' sample.mean () ) 


# Bootstrap re-sample 100 times by re-sampling with replacement 


from the original sample 





resamples = [np.random.choice(sample, size=sample.shape) for i in 


range (100) ] 


o 


print ('Example re-sample: %s' % resamples [0 





print ('Number of bootstrap re-samples: %s' % len(resamples) ) 
] 


) 


resample means = np.array([resample.mean() for resample in 





resamples] ) 





print ('Mean of re-samples\' means: %s' % resample means .mean () ) 





# Out[1]: 

Original sample: [60 84 64 59 58 30 1 97 58 34] 
Sample mean: 54.5 

Number of bootstrap re-samples: 100 

Example re-sample: [30 59 97 58 60 84 58 34 64 58] 
ean of re-samples' means: 54.183 














MPT Ze. AREA a MURRA 来 说 ， 套 袋 法 是 一 种 有 用 的 元 算法 。 事 

















实 上 ， 套 袋 决策 树 集成 因 其 经 常 成 功 地 被 使 用 ， 以 至 于 它 拥 有 了 自己 的 名 字 : 随机 森林 。 
森林 中 树 的 数量 是 一 个 重要 的 超 参数 。 增 加 树 的 数量 会 提升 模型 的 性 能 ， 但 同时 会 消耗 昂 
贵 的 算 力 。 当 树 不 作为 单一 估计 器 而 是 在 森林 中 被 训练 时 ， 因 为 套 袋 法 提供 正则 化 ， 正 则 
化 技巧 (例如 剪 校 法 或 者 对 每 个 叶 节 点 要 求 训练 实例 数量 最 小 值 〉 的 重要 性 就 会 降低 。 除 
















































































了 套 袋 法 之 外 ， 随 机 森林 的 学 习 算 法 也 经 常 在 男 一 个 方面 与 其 他 树 算法 有 所 不 同 。 回 顾 前 
一 章 的 内 容 ， 决 策 树 算法 〈 例 如 ID3) 由 信息 增益 或 者 基尼 不 纯度 作为 衡量 方式 ， 通 过 选 

































































点 上 的 一 个 特征 随机 样本 来 选择 最 佳 组 织 方式 。 我 们 使 用 scikit-learn XEY 
林 ， 如 代码 9.2 所 示 。 











代码 9.2 

# In[1]: 

from sklearn.tree import DecisionTreeClassifier 

from sklearn.ensemble import RandomForestClassifier 
from sklearn.datasets import make classification 
from sklearn.model selection import train test split 








对 在 每 个 节点 上 能 产 出 最 佳 分 隔 的 特征 来 组 织 树 。 对 于 随机 森林 来 说 ， 算 法 仅 通过 每 个 节 








| 练 一 个 随机 森 
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from sklearn.metrics import classification report 


X, y = make classification ( 


n_samples=1000, n_features=100, n_informative=20, 


n_clusters per class=2, 


random _state=11) 


X train, X test, y train, y test = train _test_split(X, yy; 


random _state=11) 


clf = DecisionTreeClassifier (random _state=11) 


clf.fit(X_train, y train) 


predictions 


= clf.predict (X_test) 


print (classification report(y test, predictions) ) 


# Out[1]: 


avg / total 


# In[2]: 


precision recall f1-score support 
0.73 0.66 0.69 27 
0.68 0.75 0.71 123 
0.71 0.70 0.70 250 


clf = RandomForestClassifier(n_estimators=10, random state=11) 


clf.fit(X_train, y train) 


predictions 


= clf.predict (X_test) 


print (classification report(y test, predictions) ) 


# Out[2]: 
precision recall f1-score support 
0 0.74 0.83 0.79 127 
1 0.80 0.70 0.75 T23 
avg / total 0.77 0.77 Oa TL 250 





首先 ， 我 们 使 用 make classification 创建 了 一 个 人 工分 类 数据 集 。 这 个 便捷 
数 可 以 细 粒 度 控制 它 产 出 的 数据 集 特征 。 我 们 创建 了 一 个 包含 1000 个 实例 的 数据 集 。 


at 




















100 个 特征 中 ，20 个 特征 是 有 信息 的 ， 余 下 的 特征 是 有 信息 特征 的 见 余 结合 或 者 噪声 。 然 
后 ， 我 们 训练 、 评 估 了 一 个 决策 树 ， 接 着 又 训练 了 一 个 包含 10 棵 树 的 随机 森林 。 随 机 森林 


的 Fl 精准 率 、 召 














回 率 和 Fl 得 分 都 更 好 。 
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9.2 ”推进 法 




























































































进 法 是 主要 用 于 减少 一 个 估计 器 偏差 的 集成 方法 家 族 的 一 员 。 推 进 法 能 用 于 分 类 任 














务 和 回归 任务 中 。 和 套 袋 法 一 样 ， 推 进 法 会 创建 同类 估计 器 的 集成 。 我 们 对 推进 法 的 讨论 





as 
y 























慰 中 关注 一 个 流行 的 推进 算法 一 一 AdaBoost。 








AdaBoost 是 一 个 迭代 算法 ， 它 在 1995 年 由 约 阿 夫 。 弗 罗 









































因 德 和 罗伯特 “区 派 尔 提出 。 








它 的 名 字 是 单词 adaptive 和 boosting 的 混合 。 在 第 一 次 迭代 中 ，adaBoost 算法 给 所 有 的 训 
练 实 例 赋予 相等 的 权重 ， 然 后 训练 一 个 弱 学 习 器 。 一 个 弱 学 习 器 (或 者 弱 分 类 器 、 弱 预测 
器 等 ) 只 被 定义 为 一 个 性 能 仅仅 略 优 于 随机 因素 的 估计 器 ， 例 如 只 有 一 个 或 很 少 节点 的 决 
策 树 。 弱 学 习 器 经 常 是 但 不 一 定 是 简单 的 模型 。 相 反 ， 一 个 强 学 习 器 被 定义 为 : 一 个 绝对 




































































优 于 弱 学 习 器 的 学 习 器 。 大 部 分 推进 算法 包括 AdaBoost 算法 ， 


为 一 个 弱 学 习 器 。 在 后 
误 的 训练 实例 的 权重 ， 而 减少 预测 正确 
的 实例 上 训练 另 一 个 弱 学 习 器 。 后 续 的 学 习 器 会 更 关 尘 
寸 ， 或 者 在 经 过 一 定 次 数 的 迭代 之 后 ， 算 法 会 停 ] 


到 完美 性 能 上 


器 预测 的 权重 和 。 


scikit-learn 类 库 实现 了 许多 用 于 分 类 和 回归 任 
AdaBoostRegressor、 






































续 的 迭代 中 ，AdaBoost 算法 会 增加 在 前 面 的 迭代 
训练 实例 的 权重 。 接 着 ， 算 法 会 在 重新 分 配 权 


























可 以 使 用 任何 基础 估计 器 作 
弱 学 习 髓 预测 错 





























| 
地 | 




















于 集成 预测 错误 的 实例 。 当 算法 达 











上 。 集 成 将 会 预测 出 基础 估计 














上 



































务 的 推进 元 估计 器 ,包括 AdaBoostClassifier、 
GradientboostingClassifier 和 GradientBoostingRegressor。 在 下 面 的 例子 中 ， 











我 们 将 为 一 个 人 工 数据 集训 练 一 个 AdaBoostClassifier 分 类 器 ， 访 数据 集 由 便捷 函数 


make_classification 创建 。 随 着 基础 估计 器 数量 的 增加 ， 我 们 会 绘制 出 集成 的 准 在 
































率 并 比较 集成 和 单一 决策 树 的 准确 率 ， 如 代码 9.3 所 示 。 








代码 9.3 
# In[1]: 


smatplotlib inline 


# In[2]: 


from sklearn.ensemble import AdaBoostClassifier 


from sklearn.tree import DecisionTreeClassifier 






































from sklearn.datasets import make classification 





from sklearn.model_ selection import train test split 


import matplotlib.pyplot as plt 


X, y = make classification ( 
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n samples=1000, n features=50, n informative=30, 
n clusters per class=3, 
random state=11) 
X train, X test, y train, y test = train_test_split(X, y; random_state=11) 


clf = DecisionTreeClassifier(random_state=11) 
clf.fit(X_train, y train) 
print ('Decision tree accuracy: %*s' % clf.score(X_ test, y test)) 


# Out[2]: 
Decision tree accuracy: 0.688 


# In[3]: 

# When an argument for the base estimator parameter is not passed, the 
default DecisionTreeClassifier is used 

clf = AdaBoostClassifier(n_estimators=50, random_state=11) 
clf.fit(X_train, y train) 

accuracies.append(clf.score(X test, y test) ) 


plt.title('Ensemble Accuracy') 
plt.ylabel ('Accuracy') 
plt.xlabel('Number of base estimators in ensemble') 





plt.plot(range(1, 51), [accuracy for accuracy in clf.staged_score(X test, 
y_test)]) 


代码 9.3 生成 如 图 9.1 所 示 的 结果 。 


集成 准确 率 

0.76 

0.74 
W O72 
= 
Hl 

0.70 

0.68 

0.66 

0 10 20 30 40 50 
集成 中 基础 估计 器 的 数量 





图 9.1 
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9.3 Teme 


















































去 训练 基 























并 基础 估 














堆肥 法 是 一 种 创建 集成 的 方法 ， 它 使 用 
堆 释 法 有 时 也 被 称 为 混合 法 ， 会 增加 第 二 个 监督 学 习 问 题 ， 元 估计 器 必须 被 训练 去 使 用 基 
出 估计 器 的 预测 结果 来 预测 响应 变量 的 值 。 为 了 训练 一 个 堆 登 集合 ， 首 先 需 要 使 用 训练 集 
























































一 个 元 估计 絮 去 合并 基础 估计 器 的 预测 结果 。 





ER 
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础 估计 器 。 和 套 袋 法 以 及 推进 法 不 同 ， 堆 县 法 可 以 使 用 不 同 种 类 的 基础 估计 器 。 


例如 ， 一 个 随机 森林 可 以 和 一 个 逻辑 回 
实情 况 会 作为 元 估计 器 的 
计 器 的 预测 结果 。scikit-learm 类 库 并 没有 实现 堆 登 元 估计 器 ， 但 是 我 们 可 以 扩展 
类 去 创建 自己 的 元 估计 器 。 在 下 面 的 例子 中 ， 我 们 使 用 一 个 单一 决策 树 


BaseEstimator %32 





作为 元 估计 器 ， 基 础 估计 器 包括 一 个 逻辑 回 
预测 概率 作为 特有 











代码 
# In 
impo 
from 
from 
from 
from 
from 


from 





归 分 类 合并 。 接 下来， 基础 估计 器 的 预测 结果 和 真 




















| 练 集 。 元 估计 器 可 以 在 相 比 投票 和 平均 更 复杂 的 情况 下 学 习 合 










































































9.4 
LLI: 
rt numpy 


klearn 





sklearn. 


klearn. 


S 
S 
sklearn. 
sklearn. 
s 


klearn. 














FE， 而 不 是 使 用 类 的 预测 标签 。 另 外 ,我 们 使 用 make_classification 
函数 创建 一 个 人 工分 类 数据 集 。 接 着 ， 训 练 并 评估 每 一 个 基础 估计 器 。 最 后 ， 训 练 并 评估 
集合 ， 它 具有 更 好 的 准确 率 。 代 码 如 代码 9.4 所 示 。 








as np 
-model selection impo 
neighbors import KNe 
tree import Decision 
linear model import 
datasets import make 
base import clone, B 


ClassifierMixin 


class StackingClassifier (Basel 





TransformerMixin): 











归 分 类 器 和 一 个 KNN 分 类 器 。 我 们 使 用 类 的 


























rt train_test_split 
ighborsClassifier 


TreeClassifier 





LogisticRegression 


_classification 





aseEstimator, TransformerMixin, 


Estimator, ClassifierMixin, 


def init (self, classifiers): 


self 
self 


def fit ( 


.classifiers = classi 


-meta_classifier = De 


self, X, y): 


fiers 


cisionTreeClassifier () 


for clf in self.classifiers: 


clf.fit(X, y) 
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self.meta_classifier.fit(self. get meta features (X), y) 
return self 





def get_meta_features(self, X): 
probas = np.asarray([clf.predict_proba(X) for clf in 
self.classifiers]) 


return np.concatenate(probas, axis=1) 


def predict (self, X): 
return self.meta_classifier.predict (self. get_meta_features (X) ) 








def predict _proba(self, X): 





return 





self.meta_classifier.predict_proba(self. get meta features (X) ) 


X, y = make classification ( 
n_samples=1000, n_features=50, n_informative=30, 
n_clusters per class=3, 
random_state=11) 
X train, X test, y train, y test = train_test_split(X, y, 
random _state=11) 


lr = LogisticRegression () 
lr.fit(X_train, y train) 
1 o 


print ('Logistic regression accuracy: %s' % lr.score(X_test, 
y_test)) 


knn clf = KNeighborsClassifier () 
knn clf.fit(X_train, y train) 


o 


print ('KNN accuracy: %s' % knn clf.score(X_ test, y test)) 


Out [1]: 
Logistic regression accuracy: 0.816 
KNN accuracy: 0.836 








In[2]: 
base classifiers = [lr, knn_clf] 
stacking clf = StackingClassifier (base classifiers) 


stacking clf.fit(X_train, y train) 
1 o 


print ('Stacking classifier accuracy: %s' % stacking clf.score(X test, 
y_test) ) 
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# Out[2]: 
Stacking classifier accuracy: 0.852 


9.4 小 结 

















在 本 章 中 ， 我 们 介绍 了 集成 方法 。 一 个 集成 方法 是 模型 的 结合 ， 其 性 能 要 优 于 任意 一 
个 其 中 的 组 件 。 我 们 讨论 了 3 种 训练 集成 的 方法 。 自 发 聚集 或 者 套 袋 法 ， 可 以 减 小 一 个 佑 
计 器 的 方差 。 套 袋 法 使 用 自发 重 采 样 来 创建 多 个 训练 集 变 体 。 在 这 些 变 体 上 训练 的 模型 的 
预测 值 将 会 被 平均 。 套 袋 决策 树 被 称 为 随机 森林 。 推 进 法 是 一 种 能 减少 基础 估计 器 偶 差 的 
集成 元 估计 器 。AdaBoost 算法 是 一 种 流行 的 推进 算法 , 它 迭 代 地 在 训练 数据 上 训练 估计 器 ， 
训练 数据 的 权重 将 会 根据 前 一 个 估计 器 的 误差 进行 调整 。 最 后 ， 在 堆 登 法 中 ， 一 个 元 估计 
器 可 以 学 习 去 合并 异类 基础 估计 器 的 预测 结果 。 





























































































































































































































在 之 前 的 章节 中 ， 我 们 讨论 了 诸如 多 元 线 ' 
中 ， 我 们 将 介绍 另 一 种 叫 作 感知 机 上 
几乎 不 被 使 用 ， 但 是 到 





KEE. 





—= 





生 回 归 和 逻辑 回归 这 检 











10.1 感知 机 


感知 机 于 20 世纪 50 4 





























处 理 信息 ) 以 及 
含 多 达 100 亿 个 神经 元 和 100 兆 个 突 触 。 如 图 10.1 所 示 ， 
树 突 、 细 胞 体 和 多 
里 ， 然 后 通过 轴 突 


一 个 独立 的 





























申 经 元 之 
























































FE 代 后 期 在 康 奈 尔 大 学 航空 实验 室 











由 弗 兰 











研究 人 员 对 模拟 人 类 大 脑 所 做 的 努力 激励 了 感知 机 最 初 的 发 展 。 大 脑 | 
司 的 连接 体 突 触 “ 用 于 传递 信息 ) 纤 






























































第 10 章 


感知 机 


的 线性 模型 。 在 本 章 





的 线性 模型 ， 它 可 用 于 二 元 分 类 任务 。 尽 管 如 今 感知 机 
解 它 的 原理 和 局 限 性 对 于 我 们 理解 后 面 章节 中 即将 讨论 的 模型 却 至 





克 “ 罗 森 布 拉 特 发 明 ， 


神经 元 细胞 (用 于 














成。 据 估 计 人 类 的 大 脑 中 包 





个 神经 元 的 主要 组 成 部 分 包括 


















































由 突 。 树 突 接 受 来 自 其 他 神经 元 的 点 信号 。 信 号 在 神经 元 细胞 体内 进行 处 
传递 到 下 一 个 神经 元 。 
申 经 元 可 以 视 作 一 个 计算 单元 ， 它 能 处 理 一 个 或 者 多 个 输入 并 产生 一 个 输 








出 结果 。 一 个 感知 机 函数 类 似 一 个 神经 元 ， 它 接受 一 个 或 者 多 个 输入 ， 进 行 处 理 然后 返回 





一 个 输出 结果 。 如 
原理 的 感知 机 模型 


























此 看 来 ， 和 人 类 大 脑 
作用 非常 有 限 。 从 某 种 程度 上 来 说 的 确 

















模型 逼近 。 然 而 ， 基 于 以 下 两 个 原 




















在 线 学 习 ， 学 习 算 法 可 以 使 














Jk BEAT Jeg BR 








对 于 到 




































































解 在 后 面 章节 


























FP 数 干 亿 个 神经 元 结构 相 比 ， 只 能 模拟 一 个 神经 元 
如 此 ， 许 多 函数 并 不 能 由 感知 机 
因 我 们 依然 需要 对 感知 机 进行 讨论 。 首 先 ， 感 知 机 能 够 


























] 单 个 训练 实例 更 新 模型 的 参数 而 无 需 批量 训练 实例 。 对 于 那 
些 体积 过 大 而 无 法 在 内 存 中 存储 的 训练 数据 集 ， 在 线 学 习 非 常用。 其次， 理解 感知 机 的 





























Pp 将 讨论 的 模型 来 说 很 有 必要 ， 包 括 支持 向 量 机 和 人 工 
神经 网 络 。 感 知 机 的 可 视 化 表示 如 图 10.2 所 示 。 
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神经 元 体 


图 中 标记 为 zi、z、23 的 
经 常 使 用 一 个 额外 的 输入 单元 
中 心 的 圆 是 计算 单元 或 者 神经 
每 条 边 都 和 一 个 参数 (或 称 为 









































特征 的 权重 为 正 ， 一 个 和 人 负 相关 类 关联 的 特征 权重 为 负 。 从 计 

















图 10.1 


图 10.2 









































3 个 圆 表示 输入 单元 。 每 个 输入 单元 表示 一 个 特征 。 感 知 机 
表示 偏差 常量 ， 但 是 这 个 输入 单元 通常 不 会 出 现在 图 表 中 。 

元 体 。 从 输入 单元 指向 计算 单元 的 边 可 以 视 为 神经 元 的 树 突 。 
权重 ) 相关 联 。 这 些 参数 易于 解释 ， 一 个 和 正 相关 类 关联 的 
[ 算 单元 输出 的 边 返回 计算 结 






































































































































果 ， 可 以 视 为 神经 元 细胞 的 轴 突 。 





10.1.1 激活 函数 











特征 和 模型 参数 的 线性 组 合 来 对 实例 进行 分 类 ， 如 公式 10.1 





感知 机 通过 激活 函数 处 理 


所 示 : 
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so Sone] (公式 10.1) 
il 


wi NREL bE RATE ORB A. 参数 和 输入 的 线性 组 合 有 时 
也 被 称 作 预 激活 。 有 几 个 不 同 的 激活 函数 经 常 被 使 用 。 罗 和 森 布 拉 特 在 最 初 的 感知 机 中 使 用 
海 维 赛 德 阶 跃 函数 作为 激活 函数 。 如 公式 10.2 所 示 ， 海 维 赛 德 阶 跃 函数 也 被 称 为 单元 阶 路 
函数 ， 公 式 中 x 代表 特征 的 组 合 : 




































































l, x>0 
= TA Ee 
so- 其 他 (公式 10.2) 

如 果 特 征 和 误差 项 的 权重 求 和 结果 大 于 0， 激 活 函 数 将 返回 1， 感 知 机 会 预测 实例 属于 
EHX. 反之 如 果 激 活 函 数 返 回 0, 感知 机 预测 实例 属于 负 向 类 。 海 维 赛 德 阶 跃 函数 如 图 10.3 
所 示 。 





















































图 10.3 




















男 一 种 常用 的 激活 函数 是 逻辑 S 型 曲线 函数 ， 如 公式 10.3 所 示 : 

















g(x) Taos : = (公式 10.3) 
+e = 























公式 中 是 输入 项 目的 权重 求 和 结果 。 和 单元 阶 跃 函数 不 同 ， 迪 辑 S 型 曲线 函数 是 可 
导 隙 数 。 当 我 们 讨论 人 工 神 经 网 络 的 时 候 导数 将 变 得 非常 重要 。 


10.1.2 感知 机 学 习 算 法 


感知 机 学 习 算 法 一 开始 将 权重 值 设 置 为 0， 或 者 很 小 的 随机 值 。 然 后 开始 对 训练 实例 
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进行 分 类 预测 。 感 知 机 是 一 种 误差 驱动 的 学 习 算法 ， 如 果 预 测 正确 ， 感 知 机 算法 将 继续 预 
测 下 一 个 实例 。 如 果 预 测 错误 ， 算 法 将 更 新 权重 值 。 具 体 权重 更 新 公式 如 公式 10.4 所 示 : 
























































w(t+])=w(f)+Q(d; 一 y,(D)x);， 对 所 有 特征 





0<i<n. (公式 10.4) 




















对 每 个 训练 实例 ， 每 个 特征 的 参数 值 按照 公式 ald, -y Ox 增加， 代表 实例 j 真正 
的 类 ，pj(D) 是 实例 j 的 预测 类 ,wj 是 实例 j 的 第 站 个 特征 ，a 是 控制 学 习 速 率 的 超 参 数 。 如 






































结果 正确 ， 权 重 不 会 发 生 更 新 ， 如 果 预 测 结果 错误 ， 则 求 出 d, - 
的 乘积 ， 并 将 乘积 结果 (可 能 为 负数 〉 加 到 当前 权重 参数 上 。 
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果 预 测 结果 正确 ，4, -y (O 的 结果 为 0， 则 (4) -y x) 等 于 0。 也 就 是 说 ， 如 果 预 测 





y(t) 的 特征 值 和 学 习 速 率 














上 述 的 更 新 规则 和 梯度 下 降 更 新 规则 类 似 , 权重 参数 向 实例 正确 分 类 的 方向 进行 调整 ， 
同时 更 新 的 尺度 由 学 习 速 率 控 制 。 每 壳 历 一 遍 所 有 的 训练 实例 称 之 为 一 个 训练 周期 





















































(epoch )。 如 果 学 习 算法 在 一 个 训练 周期 内 对 所 有 的 训练 实例 分 类 正确 ， 则 达到 收敛 状态 。 
学 习 算法 并 非 一 定 保证 能 够 收敛 ， 在 后 面 的 章节 中 ， 我 们 将 讨论 不 可 能 达到 收敛 状态 的 线 
性 不 可 分 数据 集 。 正 因 如 此 ， 学 习 算法 需要 一 个 超 参 数 来 指定 算法 终止 之 前 能 够 完成 的 最 









































大 可 训练 周期 数 。 
10.1.3 ”使 用 感知 机 进行 二 元 分 类 























下 面 来 看 一 个 玩具 分 类 问题 。 假 设 你 希望 区 分 成 年 猫 和 幼 猫 。 而 数据 集中 只 有 两 个 响 



































应 变量 : 一 天 中 猫 哈 睡觉 的 时 间 比 例 ， 以 及 一 天 中 猫咪 曾 脾 气 的 时 间 比 例 。 数 据 集 包 含 4 


























个 训练 实例 ， 如 表 10.1 所 示 。 






























































表 10.1 
实例 -天 中 睡觉 的 时 间 比 例 -天 中 闲 脾 气 的 时 间 比 例 幼 猫 还 是 成 年 猫 
1 0.2 0.1 幼 猫 
2 0.4 0.6 幼 猫 
3 0.5 0.2 幼 猫 
4 0.7 0.9 成 年 猫 











如 图 10.4 所 示 ， 所 有 实例 的 散 点 图 表明 训练 数据 集 是 线性 可 分 的 。 我 们 的 目标 是 训练 



































一 个 能 使 用 两 个 实 值 变量 对 动物 进行 分 类 的 感知 机 。 我 们 将 幼 猫 表示 为 正 向 类 ， 成 年 猫 表 



































示 为 负 向 类 。 我 们 的 感知 机 有 3 个 输入 单元 。x_1 表示 误差 项 的 















































输入 单元 , x 2 和 x 3 分 





别 是 两 个 特征 的 输入 单元 ， 计 算 单 元 使 用 单元 阶 跃 函 数 作 为 激活 函数 。 在 这 个 例子 中 ， 我 

















们 将 最 大 可 训练 周期 数 设置 为 10， 如 果 算 法 在 10 个 训练 周 
并 返回 权重 系数 的 当前 值 。 为 了 简单 起 见 ， 我 们 把 学 习 速率 设置 

















































































































数 均 设置 为 0。 第 一 个 训练 周期 的 情况 如 表 10.2 所 示 。 









































10.1 


期 内 不 收敛 ， 学 习 算 法 将 停止 
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为 1， 同 时 把 初始 权重 系 






























































表 10.2 
5 eae 预测 值 ， ET 更 新 后 的 
SEDI 始 权 重 系 数 ; x; 激活 函数 结果 7 pA 
0, 0, 0; 
0 |1.0, 0.2, 0.1; 0,1 错误 1.0, 0.2, 0.1 
1.0*0+0.2*0+0.1*0=0.0; 
1.0, 0.2, 0.1; 
1 1.0, 0.4, 0.6; 1,1 正确 不 更 新 
1.0 * 1.0 + 0.4 * 0.2 + 0.6 * 0.1 = 1.14; 
1.0, 0.2, 0.1; 
2 |1.0, 0.5, 0.2; 1,1 正确 不 更 新 
1.0 * 1.0+0.5*0.2+0.2*0.1=1.12; 
1.0, 0.2, 0.1; 
3 | 1.0, 0.7, 0.9; 1,0 错误 0, -0.5, -0.8 
1.0 * 1.0+0.7*0.2+0.9 * 0.1 = 1.23; 
o 幼 猫 和 成 年 猫 
0.8r 
im 
t 0.6 上 © 
£ 
ur 
a 
= 0.4 F 
HK 
| 
0.2 F @ 
fo) 
ogi 02 03 04 05 0.6 0.7 0.8 
一 天 中 睡觉 的 进 间 比例 
图 10.4 
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F 始 时 所 有 的 权重 系数 均 为 0。 第 一 个 实例 的 特征 权 习 












































知 机 错误 地 把 幼 猫 预测 为 成 年 猫 。 由 于 预测 结果 错误 ， 根 






































E 和 为 0， 激 活 函 数 的 输出 为 0， 感 
更 新 规则 去 更 新 权 习 








系数 。 我 们 
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为 每 个 权重 系数 增加 学 习 速 率 (1)、 真 实 标 签 和 预测 标签 (1) 的 差 值 以 及 对 应 特征 的 乘积 。 


接 下 来 到 第 二 个 训练 实例 ， 我 们 使 用 更 新 后 的 权重 系数 计算 出 特征 权重 和 等 于 1.14， 
因此 激活 函数 的 输出 为 1。 这 个 预测 结果 是 正确 的 ， 因 此 无 需 更 新 权重 系数 值 继 续 到 第 3 
个 实例 。 第 3 个 训练 实例 的 预测 结果 也 是 正确 的 ， 因 此 继续 到 第 4 个 训练 实例 。 第 4 个 训 
练 实例 的 特征 权重 和 为 1.23， 激 活 函 数 的 输出 结果 为 1， 预 测 结果 错误 地 把 成 年 猫 预测 为 
幼 猫 。 由 于 预测 结果 错误 ， 我 们 为 每 个 权重 系数 增加 学 习 速 率 、 真 实 标签 和 预测 标签 的 差 














值 以 及 对 应 特征 的 乘积 。 此 时 我 们 已 经 对 训练 数据 集中 所 有 训练 实例 进行 了 分 类 ， 完 成 了 
第 一 个 训练 周期 。 图 10.5 描绘 出 了 第 一 个 训练 周期 之 后 的 决策 边界 。 
Epoch 1 


2.0 


0.5 


0.0 





-0.5 0.0 0.5 1.0 1.5 
图 10.5 

需要 注意 ， 决 策 边界 会 在 训练 周期 内 发 生 移动 ， 训 练 周 期 结束 时 由 权重 系数 形成 的 决 
策 边 界 并 不 一 定 和 训练 周期 初始 时 的 决策 边界 产 出 同样 的 预测 结果 。 由 于 还 没有 达到 最 大 
可 训练 周期 数 ， 我 们 继续 对 训练 实例 进行 迭代 。 第 2 个 训练 周期 的 情况 如 表 10.3 所 示 。 


表 10.3 














本 初始 权重 系数 值 ; x; 激活 函数 结果 : mwm 目标 什 | Ae | EAE ~ 
0, —0.5, —0.8; 

0 1.0, 0.2, 0.1; 0,1 错误 1, -0.3, —0.7 
1.0*0+0.2 * —0.5 + 0.1 *-0.8 = —0.18; 














10.1 感知 机 135 




















[Sj 再 = 

初始 权重 系数 值 ; x; 激活 函数 结果 ; 预测 值 , 目标 值 | “Ag | A 
1, -0.3, -0.7; 

1 | 1.0, 0.4, 0.6; 1,1 正确 1, -0.3, -0.7 
1.0 * 1.0 + 0.4 *-0.3 + 0.6 * -0.7 = 0.46; 
1, -0.3, -0.7; 

2 | 1.0, 0.5, 0.2; 1,1 正确 1, -0.3, -0.7 
1.0 * 1.0 + 0.5 *-0.3 + 0.2 * —0.7 = 0.71; 
1, —0.3, —0.7; 

3 | 1.0, 0.7, 0.9; 1,0 错误 1,-1,-1.6 
1.0 * 1.0 + 0.7 *-0.3 + 0.9 * -0.7= 0.16; 














第 2 个 训练 周期 开始 使 用 的 是 第 一 个 训练 周期 结束 后 的 权重 系数 。 在 第 2 个 训练 周期 
中 模型 对 两 个 训练 实例 分 类 错误 ， 因 此 权重 系数 发 生 两 次 更 新 。 但 是 如 图 10.6 所 示 ， 第 2 
个 训练 周期 结束 后 的 决策 边界 和 第 一 个 训练 周期 结束 后 的 训练 边界 很 类 似 。 
Epoch 2 


2.0 


1.5 


1.0 


0.5 


0.0 





-0.5 0.0 0.5 1.0 1.5 
图 10.6 


算法 在 该 训练 周期 内 没有 收敛 ， 因 此 训练 继续 进行 。 表 10.4 描述 了 第 3 个 训练 周期 的 
情况 。 
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表 10.4 
实 x yigi cs E AE BE. =a = ee | 更 新 后 的 权重 
例 初始 权重 系数 值 ; x; 激活 函数 结果 ; 预测 值 , 目标 值 正确 系数 
0, -1, 一 1.6; 
0 | 1.0, 0.2, 0.1; 0,1 错误 1, -0.8, -1.5 
1.0 * 0 + 0.2 * —1.0 + 0.1 * —1.6 =—0.36; 
1,-0.8, —1.5; 
1 | 1.0, 0.4, 0.6; 0,1 错误 2, -0.4, -0.9 
1.0 *1.0 + 0.4 * -0.8 + 0.6 * -1.5 =—0.22; 
2, -0.4, -0.9; 
2 | 1.0, 0.5, 0.2; 1,1 正确 2, -0.4, -0.9 
1.0 * 2.0+0.5*—0.4+0.2*—0.9= 1.62; 
2, —0.4, —0.9; 
3 | 1.0, 0.7, 0.9; *1,0 错误 1,-1.1, -1.8 
1.0 * 2.0 + 0.7 * —0.4 + 0.9 * —0.9 = 0.91; 
相 比 上 一 个 训练 周期 ， 本 次 训练 周期 中 感知 机 做 了 更 多 的 错误 预测 。 图 10.7 描绘 了 第 











3 次 训练 周期 结束 后 的 决策 边界 。 再 次 需要 注意 到 由 于 权重 系数 在 每 个 训练 实例 分 类 后 进 


行 了 更 新 ， 决 策 边界 发 生 了 变化 。 











Epoch 3 





图 





10.7 


感知 机 在 第 4 个、 第 5 个 训练 周期 后 继续 更 新 权重 系数 ， 同 时 也 继续 对 训练 实例 进行 
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错误 预测 。 在 第 6 个 训练 周期 中 ， 感 知 机 对 所 有 的 训练 实例 做 出 了 正确 的 预测 ， 此 时 感知 
机 收敛 于 一 个 能 区 分 两 个 类 的 权重 系数 集 。 表 10.5 描述 了 第 6 个 训练 周期 内 的 情况 。 









































表 10.5 

ar ELAS 3 E 

a 初始 权重 系数 值 ; x; 激活 函数 结果 : 预测 值 ， 目 标 值 | Ee | SBE 
2, 一 1, -1.5; 

0 1.0, 0.2, 0.1; 1,1 正确 2,-1,-1.5 
1.0*2+0.2 *-1+0.1 *-1.5 = 1.65; 
2,—-1,-1.5; 

1 | 1.0, 0.4, 0.6; 1,1 正确 2,-1,-1.5 
1.0*2+0.4 * -1+0.6 * -1.5 =0.70; 
2,—-1,-1.5; 

2 1.0, 0.5, 0.2; 1,1 正确 2=1; 15 
1.0*2+0.5 *-1+0.2 * -1.5 = 1.2; 
2,—1, —1.5; 

3 1.0, 0.7, 0.9; 0,0 正确 2,—-1,-1.5 
1.0 *2+0.7 *-1+0.9 * -1.5 =—0.05; 














第 6 个 训练 周期 结束 后 的 决策 边界 如 图 10.8 所 示 。 
Epoch 6 





图 10.8 





图 10.9 展示 了 前 5 个 训练 周期 决策 边界 的 变化 情况 。 
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Epoch 1 Epoch 2 Epoch 3 Epoch 4 Epoch 5 












































A 1 L d -1.06 — f A 4 -1.0 4 f f ni 4 
-0.5 00 05 10 15 -0.5 00 05 10 15 -0.5 0.0 05 10 15 


图 10.9 
10.1.4 使 用 感知 机 进行 文档 分 类 


和 其 他 估计 器 一 样 ，Perceptron 类 实现 了 fit JM predict 方法 ， 同 时 可 以 通 
过 构造 函数 指定 超 参数 。Perceptron 类 还 实现 了 partial fit 方法 ,该 方法 允许 分 类 
器 进行 增 量 训练 。 

在 下 面 的 例子 中 ， 我 们 训练 一 个 感知 机 对 来 自 20Newsgroups 数据 集 的 文档 进行 分 类 。 
该 数据 集 包 含 了 来 自 20 个 Usenet 新 闻 组 " 约 20000 份 文档 样本 。 该 数据 集 常 被 用 于 文档 
分 类 和 聚 类 实验 ，scikit-learn 类 库 其 至 提供 了 一 个 便捷 函数 用 于 下 载 和 读 取 数据 集 。 我 们 
将 训练 一 个 感知 机 对 来 自 3 个 新 闻 组 的 文档 进行 分 类 ， 它 们 分 别 是 rec.sports.hockey 新 闻 
组 、rec.sports.baseball 新 闻 组 以 及 rec.auto 新 闻 组 。 感 知 机 使 用 “一 对 多 ”的 策略 来 为 训 
练 数据 中 的 每 个 类 训练 分 类 器 ， 以 此 来 进行 多 类 别 分 类 。 在 代码 10.1 中 我 们 将 文档 表示 
为 tf-idf 加 权 的 词 袋 (bag-of-words )。 在 内 存 有 限 的 环境 中 ，partial fit 方法 和 
HashingVectorizer 类 可 以 结合 使 用 来 训练 大 型 数据 集 或 者 流 式 数 据 集 。 代 人 码 10.1 如 
下 所 示 。 


代码 10.1 
# In[1]: 
from sklearn.datasets import fetch 20newsgroups 


上 _ A f A 14 —1,9b 1 L f 14 —1.0Ł 
-0.5 00 05 10 15 -0.5 0.0 0.5 10 15 

















from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.linear_model import Perceptron 
from sklearn.metrics import fl score, classification report 


categories = ['rec.sport.hockey', 'rec.sport.baseball', 





"rec.autos'] 
newsgroups train = fetch 20newsgroups(subset='train', 





© REW: Usenet 是 一 种 分 布 式 的 互联 网 交流 系统 ，Usenet 包含 众多 新 闻 组 ， 它 是 新 闻 组 ( 异 于 传统 、 新 闻 指 交流 、 信 息 ) 
及 其 消息 的 网 络 集合 。 




















10.2 感知 机 的 局 限 性 








categories=categories, remove=('headers', 'footers', 'quotes')) 
newsgroups test = fetch 20newsgroups(subset='test', 
categories=categories, remove=('headers', 'footers', 'quotes')) 
vectorizer = TfidfVectorizer() 
X train = vectorizer.fit_transform(newsgroups train.data) 





X test = vectorizer.transform(newsgroups test.data) 

clf = Perceptron(random_state=11) 

clf.fit(X_train, newsgroups train.target ) 

predictions = clf.predict (X_test) 

print (classification report (newsgroups test.target, predictions) ) 


# Out[1]: 
precision recall f1-score support 
0 0.81 0.92 0.86 396 
1 0.87 0.76 0.81 397 
2 0.86 0.85 0.86 399 
avg / total 0.85 0.84 0.84 1192 
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首先 我 们 使 用 fetch20newsgroups 函数 下 载 和 读 取 数 据 集 。 和 其 他 的 内 建 数据 集 


保持 一 致 ， 这 个 函数 也 返回 一 个 包含 data, target fe targetnames BHM AR. [AlN 
我 们 指定 移 除 文 档 的 页 眉 、 页 脚 和 引用 部 分 。 每 个 新 闻 组 在 页 眉 和 页 脚 部 分 使 用 不 同 的 约 
定格 式 , 保留 这 些 部 分 可 以 使 手工 分 类 文档 变 得 简单 。 我 们 使 用 Tfifdvectorizer 


成 外 idf 向 量 来 训练 感知 



















































































下 ， 感 知 机 的 平均 准确 率 、 召 回 率 以 及 F1 得 分 均 为 0.84。 


10.2 感知 机 的 局 限 性 


是 逻辑 异 或 函数 (或 称 XOR)。 当 一 个 输入 为 1， 另 一 个 输入 为 0 时 ，XOR 的 输出 结 


l, 


bridA— P88. WE 10.10 所 示 ， 仅 用 一 根 直线 无 法 把 圆 形 和 菱形 分 开 。 




















类 生 





机 ,并 在 测试 数据 集 上 对 模型 进行 评估 。 在 没有 超 参数 优化 的 情况 


感知 机 使 用 一 个 超 平面 区 分 正 向 类 和 负 向 类 。 一 个 线性 不 可 分 的 分 类 问题 的 简单 例子 
































果 为 


其 余 情况 输出 结果 为 0。XOR 的 输入 和 输出 结果 在 二 维 平面 上 的 绘图 结果 如 图 10.15 所 
示 。 当 XOR 的 输出 结果 为 1 时， 实例 标记 为 一 个 圆 形 ， 当 XOR 的 输出 结果 为 0 时 ， 




























































































假设 实例 是 钉 在 一 块 平板 上 的 钉子 。 如 果 围 绕 两 个 正 向 类 实例 拉 伸 一 根 橡皮 筋 ， 










































































实例 


同时 


围绕 两 个 负 向 类 实例 拉 伸 一 根 橡皮 筋 ， 两 根 橡皮 筋 会 在 平板 中 间 发 生 交 叉 。 这 些 橡皮 筋 代 
KAE, 或 者 包含 集合 内 所 有 点 以 及 在 集合 内 连接 一 对 点 的 任何 直线 上 的 所 有 点 的 包 络 线 。 


相 比 低 维 度 空间 ， 特 征 在 高 维度 空间 中 的 表示 更 有 可 能 是 线性 可 分 的 。 例 如 ， 当 使 用 词 包 
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这 样 的 高 维度 空间 表示 方法 时 ， 文 本 分 类 问题 更 趋 近 于 线性 可 分 。 





1} @ D 











图 10.10 




















在 后 面 两 个 章节 中 ， 我 们 将 讨论 能 够 用 于 对 线性 不 可 分 模型 数据 进行 建 模 的 技巧 。 第 
1 个 技巧 称 为 核 化 ， 它 将 线性 不 可 分 的 数据 投影 到 能 够 使 其 线性 可 分 的 高 维度 空间 。 核 化 
能 够 用 于 许多 模型 〈 包 括 感知 机 )， 但 是 它 与 支持 向 量 机 尤其 相关 。 我 们 将 在 下 一 章 中 讨论 
支持 向 量 机 。 第 2 个 技巧 是 创建 一 个 由 感知 机 组 成 的 有 向 图 ， 最 终 形成 的 模型 称 为 人 工 神 
经 网 络 ( ANN )， 它 也 是 一 个 通用 的 函数 远近 器 。 我 们 将 在 第 12 章 中 讨论 人 工 神 经 网 络 。 
















































































10.3 小结 


在 本 章 中 ， 我 们 讨论 了 感知 机 。 受 神经 细胞 原理 的 局 发 的 感知 机 是 用 于 二 元 分 类 的 线 
性 模型 。 感 知 机 通过 处 理 实例 特征 和 权重 系数 的 线性 组 合 ， 并 根据 激活 函数 的 输出 结果 来 
对 实例 进行 分 类 。 昌 然 使 用 风 辑 S 型 曲线 激活 函数 的 感知 机 模型 和 风 辑 回归 模型 相同 ， 但 
是 感知 机 在 学 习 其 权重 系数 时 使 用 了 一 种 在 线 的 、 误 差 驱 动 的 算法 。 感 知 机 可 以 有 效 地 用 
于 多 种 问题 。 和 我 们 讨论 过 的 其 他 线性 分 类 器 一 样 ， 感 知 机 使 用 一 个 超 平面 把 实例 分 为 正 
向 类 和 负 向 类 。 然 而 一 些 数据 集 并 不 是 线性 可 分 的 ， 也 就 是 说 任何 超 平面 都 不 能 正确 地 将 
所 有 实例 进行 分 类 。 

在 后 面 的 章节 中 ， 我 们 将 讨论 两 个 可 以 用 于 线性 不 可 分 数据 集 的 模型 : 1. ANN, i 
过 一 个 由 感知 机 组 成 的 图 来 创建 一 个 通用 函数 逼近 器 ; 2. 文 持 问 量 机 ， 将 数据 投影 到 更 高 
维度 空间 使 其 变 为 线性 可 分 。 



















































































































































































行 分 类 。 
一 个 响应 变量 和 解释 变量 线性 不 
称 之 为 多 项 式 回归 的 多 元 线性 回 上 
量 和 更 高 维度 的 特征 





然而 它 也 带 来 了 两 个 相关 问题 。 
会 需要 


驼 的 程度 。 为 了 避免 拟 合 ， 


型 





。 首 先 我 们 将 重新 考虑 
去 缓和 从 映射 到 高 维 





的 数学 方法 。 和 前 面 章节 中 详细 地 解释 简单 
何 运行 的 直觉 ， 以 便 更 有 


11.1 核 与 核 技巧 

















EEP, RINA TEA 
回想 一 下 ， 当 我 们 


























当 使 








在 本 章 中 ， 我 1 
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1H 机， 并 描述 了 为 什么 它 不 能 有 效 寺 


























日 关 的 数据 集 。 

















空间 中 的 特 人 





AA 


第 1 个 问题 是 计算 问题 ， 
更 多 的 算 力 。 第 2 个 问题 涉及 模型 的 泛 化 能 力 ， 增 加 特 











的 特殊 形式 。 









































Nia? 














ERPE RNY 





E 度 特征 表示 中 学 习 需 要 的 训 
门将 讨论 一 种 称 为 支持 向 量 机 ( SVM )， 


在 创建 了 合成 特 生 
F 之 间 的 线性 关系 进行 建 模 。 

用 线性 模型 逼近 非 线性 模型 时 , 增加 特征 空间 的 维度 虽然 似乎 是 一 种 有 效 的 技巧 ， 
计算 映射 特征 和 计算 更 大 的 向 
征 表 示 的 维度 会 加 剧 维 
练 数据 将 会 呈 指 数 增长 。 














也 对 线性 不 可 分 数据 进 














在 讨论 多 元 线性 回归 时 遇 到 过 一 个 相似 的 问题 : 我们 需要 检测 








为 了 提升 模型 的 准确 











率 ， 我 们 介绍 了 一 个 



































F 之 后 ， 便 可 以 对 响应 变 
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An 于 分 类 





























述 支 持 向 量 机 ， 























公式 11.1 所 示 : 


空间 的 数据 ， 




















学 习 时 遇 到 的 计算 














同时 描述 用 









































效 地 








回顾 一 下 ， 感 知 机 使 用 一 个 超 





nd 























F 面 作为 决策 边界 来 








f(x)=<w,x>+b 


到 更 高 维度 的 空间 。 接 着 我 们 将 讨论 文 持 问 
问题 和 泛 化 问题 。 


和 回归 的 强大 判别 模 
量 机 如 何 


已 经 有 很 多 书 致力 





























支持 向 量 机 的 优化 算法 ， 这 需要 使 

















] 比 前 面 章节 更 高 级 











例子 不 同 ， 我 们 将 尝试 建立 一 种 支持 向 
使 用 scikit-learn 类 库 。 








量 机 如 


区 分 正 向 实例 和 负 向 实例 。 决 策 边 


(公式 11.1) 
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使 用 公式 11.2 进行 预测 : 





h(x) = sign( f(x)) (公式 11.2) 


注意 , 我 们 之 前 将 内 积 < 


w SATA wx. 为 了 与 SVM 


ap 中 使 用 的 符号 约定 保持 一 致 ， 我 们 将 在 本 章 内 容 中 继 


续 使 用 前 面 提 到 的 表示 法 。 





尽管 这 超出 了 本 章 的 范围 ， 但 我 们 可 以 用 另 一 种 方式 来 表示 模型 。 公 式 11.3 所 表示 的 


模型 称 之 为 对 偶 形 式 ， 之 前 使 月 


原始 形式 和 对 偶 形式 之 间 最 大 的 不 同 帮 








日 的 表示 方法 称 之 为 原始 形式 。 


f(x) =(w,x) +b =) ay,(x,.x) +b (公式 11.3) 

















E 于 ， 原 始 形式 计算 了 模型 参数 和 测试 实例 特征 














向 量 的 内 积 ， 而 对 偶 形 式 计算 了 训练 实例 和 测试 实例 特征 向 量 的 内 积 。 很 快 我 们 就 会 通过 
对 偶 形 式 的 这 个 特性 来 处 理 线性 不 可 分 类 。 首 先 ， 我 们 需要 把 特征 映射 到 更 高 维度 空间 的 
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定义 进行 形式 化 。 


在 第 5 章 的 5.2 754 








允许 我 们 使 
AN: 


如 图 11.1 所 示 ， 左 边 的 图 表示 一 个 线性 不 可 分 数据 集 的 原 特 征 空间 ， 右 边 的 图 表示 在 


























P， 我 们 将 特征 映射 到 了 一 个 更 高 维度 的 空间 中 ， 在 该 空间 中 特征 
与 响应 变量 线性 相关 。 了 映射 通 过 创建 原 有 特征 的 二 次 项 增加 了 特征 的 数量 。 这 些 合成 特征 





















































一 个 线性 模型 来 表示 一 个 非 线 怕 


x> 
o: R° 














映射 到 一 个 更 高 维度 空间 之 后 ， 数 据 变 得 线 怕 


E 模 型 。 总 的 来 说 ， 一 个 映射 应 该 如 公式 11.4 


P(x) 


: (公式 11.4) 
>R 
































图 1 


FE 可 分 : 
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现在 让 我 们 回 到 决策 边界 的 对 侦 形 式 ， 可 以 看 到 特征 向 量 只 会 出 现在 点 积 中 。 我 们 可 
以 通过 在 特征 向 量 上 执行 映射 来 把 数据 映射 到 一 个 更 高 维度 的 空间 中 ， 如 公式 11.5 和 11.6 
所 示 : 












































FQ) = >》 ayx) +b (公式 11.5) 


S= F ayga) +b (公式 11.6) 














如 前 面 所 述 ， 映 射 操作 让 我 们 可 以 表示 更 复杂 的 模型 ， 但 是 也 引入 了 计算 问题 和 泛 化 
问题 。 对 特征 向 量 进行 映射 和 计算 特征 向 量 的 点 积 需 要 大 量 的 处 理 能 力 。 


如 公式 11.5 所 示 ， 尽 管 我 们 把 特征 向 量 映射 到 了 一 个 更 高 维度 的 空间 中 ， 特 征 向 量 仍 
然 只 出 现在 点 积 计算 中 。 点 积 的 计算 结果 是 一 个 标量 ， 一 旦 这 个 标量 被 计算 出 来 ， 我 们 将 
不 再 需要 映射 后 的 特征 向 量 。 如 果 能 用 一 种 不 同 的 方法 求 出 和 映射 后 向 量 点 积 相同 的 标量 ， 
我 们 就 能 省 去 计算 点 积 和 对 特征 向 量 进行 映射 的 大 量 工作 。 
幸运 的 是 ， 有 一 种 方法 叫 作 核 技巧 。 一 个 核 是 这 样 一 种 函数 ， 只 要 给 定 了 原始 特征 向 
就 能 返回 和 其 相关 的 映射 特征 向 量 相同 的 点 积 值 。 核 并 不 会 直接 把 特征 向 量 映射 到 一 
个 更 高 维度 的 空间 , 或 者 计算 映射 向 量 的 点 积 。 核 通过 一 系列 不 同 的 操作 来 产 出 相同 的 值 ， 
这 些 操作 通常 可 以 得 到 更 有 效 的 计算 。 公 式 11.7 是 对 核 更 加 正式 的 定义 : 
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K(x, z) = (x), p(z) (公式 11.7) 
下 面 来 证 明 核 是 如 何 运行 的 。 假 设 我 人 有 两 个 特征 向 量 x 和 z， 如 公式 11.8 所 示 : 
X= (0072 ) 


(公式 11.8) 


Z= (2,29) 


在 模型 中 ， 我 们 希望 使 用 公式 11.9 将 特征 向 量 映射 到 更 高 维度 的 空间 : 









































G(x) = (a7 ,0, V2) (公式 11.9) 





因此 ， 映 射 标准 化 后 的 特征 向 量 的 点 积 如 公式 11.10 所 示 : 

















(G(x), G2)) = (0 x2, V222), (27 ,22, V22123)) (公式 11.10) 


公式 11.11 中 定义 的 核 函数 能 产 出 和 映射 特征 向 量 点 积 相等 的 值 ; 
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K(x,z) =(x,z) = (X12, + X5Z> y= xz? 十 2X121X222 + X222 
K(x,2)= (h(x), @(Z)) 
下 面 我 们 使 用 真实 值 来 让 下 面 的 示例 11.1 更 具 说 服 力 ; 


(公式 11.11) 




















x= (4,9) 
x = (3,3) 
K(x,z)=4 x3? +2x4x3x9x3+9? x3? =1521 
(G(x), 6(2)) = (47,97, V2 x 4x9), (37,37, V2 x3x3)) =1521 


(示例 11.1) 






































FY PRB K (x, 2) AE AUNT Te) Be AR (A(x), (2) 计算 结果 相等 的 值 ， 但 是 它 并 没有 显 
式 地 把 特征 问 量 映射 到 高 维 空间 ， 并 只 需要 相对 较 少 的 数学 运算 。 示 例 11.1 中 只 使 用 了 二 
维 向 量 。 然 而 即使 是 只 有 少量 特征 的 数据 集 也 会 产生 巨大 维度 的 映射 特征 空间 。scikit-learn 
类 库 提供 了 一 些 常用 的 核 函 数 ， 包 括 多 项 式 核 、S 型 核 、 高 斯 核 以 及 线性 核 。 多 项 式 核 如 
公式 11.12 所 示 : 
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K(x,x') =(y(x- x’) +r)" (公式 11.12) 


平方 核 或 者 上 等 于 2 的 多 项 式 核 , 经 常 被 用 于 自然 语言 处 理 。S 型 核 如 公式 11.13 所 示 。 
”和 > 都 是 能 在 交叉 验证 中 进行 微调 的 超 参 数 。 
K(x, x’) = tanh(y(x -— x’) +r) (公式 11.13) 


对 于 需要 用 非 线性 模型 处 理 的 问题 来 说 ， 高 斯 核 是 第 一 优先 选择 。 高 斯 核 是 一 个 径 向 
基 范 数 。 映 射 特征 向 量 空 间 中 作为 决策 边界 的 超 平面 和 原 空 间 中 作为 决策 边界 的 超 平面 类 
似 。 由 高 斯 核 产 出 的 特征 空间 可 以 拥有 无 限 维度 ， 这 是 其 他 特征 空间 不 可 能 具有 的 特性 。 
高 斯 核 函 数 的 定义 如 公式 11.14 所 示 : 























































































































K(x,x') = exp(-y|x—x'|') (公式 11.14) 

















使 用 SVM 时 对 特征 进行 缩放 是 很 重要 的 ， 但 是 在 使 用 高 斯 核 时 特征 缩放 却 尤为 重要 。 
选择 核 函数 非常 有 挑 成。 在 理想 情况 下 ， 一 个 核 函 数 能 通过 某 种 对 任务 有 效 的 方式 衡量 实 
例 之 间 的 相似 性 。 虽 然 核 函数 经 常 和 SVM 一 起 使 用 ， 但 是 它 也 能 和 任何 能 够 被 表示 为 两 
个 特征 向 量 点 积 的 模型 一 起 使 用 ， 包 括 逻 辑 回 归 、 感 知 机 以 及 主 成 分 分 析 ( PCA )。 在 下 一 
节 内 容 中 ， 我 们 将 解决 由 映射 到 高 维度 空间 带 来 的 第 二 个 问题 : 泛 化 问题 。 
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11.2 最 大 间隔 分 类 和 支持 向 量 








图 11.2 描绘 了 两 个 线性 可 分 类 的 实例 和 3 个 可 能 的 决策 边界 。 DV ACL AAD 
了 训练 实例 中 的 正 向 类 和 训练 实例 中 的 负 向 类 ， 一 个 感知 机 就 可 以 通过 学 习 产 出 任意 一 个 
决策 边界 。 哪 一 个 决策 边界 最 可 能 在 测试 数据 上 有 最 佳 性 能 呢 ? 





















































Tı 


图 11.2 





从 图 11.2 可 以 看 出 ， 根 据 直觉 ， 点 线 决 策 边界 应 该 是 最 优 的 。 实 线 决策 边界 太 靠 近 正 
向 类 实例 。 如 果 测试 集中 包含 一 个 略 小 于 第 一 个 解释 变量 x 的 正 向 类 实例 ， 这 个 实例 很 可 
能 会 被 错误 分 类 。 虚 线 决 策 边 界 距离 大 多 数 的 训练 实例 太 远 ， 但 是 却 很 靠近 一 个 正 向 类 实 
例 和 一 个 负 向 类 实例 。 


图 11.3 提供 了 一 种 不 同 的 角度 来 评估 决策 边界 。 假 设 图 中 的 线 是 一 个 逻辑 回归 分 类 器 
的 决策 边界 。 标 记 为 A 的 实例 远离 决策 边界 ， 它 有 很 高 的 概率 被 预测 为 正 向 类 。 标 记 为 B 
的 实例 仍然 被 预测 为 属于 正 向 类 ， 但 是 实例 越 靠 近 决 策 边界 被 预测 为 正 向 类 的 概率 机 会 越 
低 。 最 后 ， 标 记 为 C 的 实例 有 很 低 的 概率 被 预测 为 正 向 类 ， 即 使 是 训练 数据 的 一 个 微小 变 
化 也 会 导致 预测 类 发 生变 化 。 最 可 信 的 预测 是 远离 决策 边界 的 训练 实例 ， 因 此 我 们 可 以 使 
用 其 函数 间隔 来 评估 预测 的 可 信 度 。 训 练 集 的 函数 间隔 如 公式 11.15 所 示 : 




















































































































146 第 11 章 从 感知 机 到 支持 向 量 机 





funct = min y, f (x) 


f(x) =(w,x) +b (公式 11.15) 











图 11.3 
在 公式 11.13 中 ，y; 是 实例 的 真实 类 。 实 例 4 的 函数 间隔 很 大 ， 实 例 C 的 函数 间隔 很 





























小 。 如 果 C 分 类 错误 ， 函 数 间隔 将 为 负 值 。 函 数 间隔 等 于 1 的 实例 称 为 支持 向 量 。 这 些 实 
例 足 够 用 来 定义 决策 边界 ， 因 此 不 需要 使 用 其 他 实例 来 对 测试 实例 进行 预测 。 和 函数 间隔 
相关 联 的 有 几何 间隔 ， 或 者 支持 向 量 的 最 大 宽度 。 儿 何 间隔 等 于 标准 化 函数 间隔 ， 由 于 函 
数 间隔 能 通过 w 进行 缩放 《〈 这 对 于 训练 来 说 是 一 个 问题 )》 对 函数 间隔 进行 标准 化 非常 有 必 
要 。 当 w 是 一 个 单位 向 量 时 ， 几 何 间隔 等 于 函数 间隔 。 我 们 可 以 将 最 佳 决 策 边 界 正 式 定 义 
为 具有 最 大 几何 间隔 的 决策 边界 。 最 大 化 几何 间隔 的 模型 参数 可 以 通过 对 约束 优化 问题 
11.16 求解 得 出 : 
















































































.1 
min—(w, w 
zS ) 

















满足 : y((wx) +b) = 1 (公式 11.16) 
SVM 的 一 个 有 用 的 特性 是 公式 11.16 优化 问题 是 一 个 凸 优化 问题 ， 它 的 局 部 最 小 值 也 
是 全 局 最 小 值 。 昌 然 其 证 明 过 程 超出 了 本 书 的 范围 ， 但 是 前 面 提 到 的 优化 问题 可 以 表示 为 






















































































模型 的 对 偶 形 式 以 适应 核 函 数 ， 如 公式 11.17 所 示 : 


1 
W(a)= > ai = 732% yy Kx) 
i i,j 
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满足 : > ya, =0 


i=l 





满足 : a, 20 (公式 11.17) 

找 出 使 几何 间隔 最 大 化 的 参数 是 一 个 二 次 规划 问题 ， 该 问题 通常 使 用 序列 最 小 优化 算 
法 (SMO ) 解决 。SMO 算法 将 优化 问题 分 解 成 为 一 系列 尽 可 能 最 小 的 子 问 题 ， 然 后 可 以 
被 分 析 解 决 。 






























































11.3 用 scikit-learn 分 类 字符 


让 我 们 将 SVM 运用 于 一 个 分 类 问题 。 近 些 年 来 ，SVM 已 经 成 功 地 运用 于 字符 识别 任 
务 中 。 对 于 一 张 图 片 ， 分 类 器 必须 预测 图 片 描绘 的 字符 。 字 符 识 别 是 许多 光学 字符 识别 系 
统 的 一 个 组 件 。 当 原始 像素 强度 作为 特征 使 用 时 ， 即 使 是 很 小 的 图 片 也 需要 进行 高 维度 表 
示 。 如 果 类 别 线性 不 可 分 ， 必 须要 映射 到 更 高 维度 空间 ， 特 征 空 间 的 维度 会 变 得 更 大 。 幸 
运 的 是 ，SVM 非常 适合 有 效 地 处 理 这 些 数据 。 首 先 我 们 将 使 用 scikit-learn 类 库 训 练 一 个 
SVM 来 识别 手写 数字 。 然 后 我 们 将 解决 一 个 更 具 挑 战 性 的 问题 : 识别 照片 中 出 现 的 字母 数 


Po Pe A 


FFT © 
11.3.1 手写 数字 分 类 


混合 美国 标准 和 技术 研究 所 ( MNIST ) 数据 集 是 一 个 包含 70000 张 手 写 数字 图 片 的 集 



















































































































































































合 ， 这 些 数 字样 本 来 自 于 美国 人 口 普查 局 的 雇员 和 美国 高 校 学 生 书写 的 文档 。 这 些 图 片 是 
灰 度 图 片 ， 尺 寸 为 28 像素 x 28 像素 。 让 我 们 使 用 代码 11.1 来 查看 其 中 一 些 图 片 。 

代码 11.1 

# In[1]: 


import matplotlib.pyplot as plt 
from sklearn.datasets import fetch _mldata 
import matplotlib.cm as cm 


mnist = fetch mldata('MNIST original', data_home='data/mnist') 


counter = 1 
for iin range(l, 4): 
for j in range(l, 6): 
plt.subplot (3, 5, counter) 
plt.imshow(mnist.data[(i - 1) * 8000 + j].reshape((28, 
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28)), cmap=cm.Greys r) 
plt.axis('off"') 
counter += 1 
plt.show() 


首先 我 们 加 载 了 数据 。 scikit-learn 类 库 提 供 了 便捷 函数 fetch_midata 用 于 当 数 据 集 
没有 在 磁盘 中 存储 时 下 载 数 据 集 ， 并 将 数据 集 读 取 到 一 个 对 象 中 。 接 着 ， 我 们 为 数字 0、1 
和 2 创建 了 一 个 包含 5 个 实例 的 子 图 。 代 码 运行 结果 如 图 11.4 所 示 。 


ololololo 
it tpt 


图 11.4 





























































































MNIST 数据 集 被 分 为 一 个 包含 60000 张 图 片 的 训练 集 和 一 个 包含 10000 张 图 片 的 测试 
集 。 该 数据 集 经 常用 于 评估 各 种 各 样 的 机 器 学 习 模 型 ， 它 非常 受 欢 迎 的 原因 是 几乎 不 需要 
进行 任何 预 处 理工 作 。 让 我 们 使 用 scikit-learn 类 库 来 创建 一 个 能 预测 图 片 中 描绘 的 数字 的 
分 类 器 ， 如 代码 11.2 所 示 。 



















































































代码 11.2 

# In[2]: 

from sklearn.pipeline import Pipeline 

from sklearn.preprocessing import scale 

from sklearn.model_ selection import train test split 
from sklearn.svm import SVC 

from sklearn.grid_search import GridSearchCv 

from sklearn.metrics import classification report 


if name == ' main ': 





X, y = mnist.data, mnist.target 
X = X/255.0*2 - 1 
X train, X test, yý train, y test = train_test_split(X, y; 


11.3 用 scikit-learn 分 类 


random_state=11) 


pipeline = Pipeline ([ 
('clf', SVC(kernel='rbf', gamma=0.01, C=100)) 





] ) 


parameters = { 
'clf gamma': (0.01, 0.03, 0.1, 0.3, 1), 
eli, -Cti (Ory Onay ty 3,2 10; 30) 4 


grid_search = GridSearchCV(pipeline, parameters, n_jobs=2, 





verbose=1, scoring='accuracy') 
grid_search.fit(X _train[:10000], y train[:10000]) 
print ('Best score: %0.3f' % grid_search.best_ score ) 
print ('Best parameters set:') 
best parameters = grid_search.best_ estimator .get Params () 
for param_name in sorted(parameters.keys()): 
print('\t%s: %r' % (param name, 


best_parameters [param name] ) ) 


predictions = grid_search.predict (X test) 
print (classification report(y test, predictions) ) 


# Out[2]: 
Fitting 3 folds for each of 30 candidates, totalling 90 fits 
[Parallel (n_jobs=2)]: Done 46 tasks | elapsed: 54.0min 
[Parallel (n_jobs=2)]: Done 90 out of 90 | elapsed: 101.9min finished 
Best score: 0.965 
Best parameters set: 
elf Ot 3 
clf gamma: 0.01 


precision recall f1-score support 
0.0 0.98 0.98 0.98 1770 
1.0 0.99 0.98 0.98 1987 
2.0 0.95 0.97 0.96 1738 
3:0 0.96 0.96 0.96 1808 
4.0 0.97 0.98 0.97 1703 
5.0 0.96 0.96 0.96 1549 
6.0 0.98 0.98 0.98 1677 
7.0 0.98 0.96 0.97 1827 
8.0 0.96 0.95 0.96 1701 
9.0 0.96 0.96 0.96 1740 





Be Hs 


字符 
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avg / total 0.97 0.97 





0.97 


= 








17500 


代码 在 网 格 搜寻 的 过 程 中 将 会 创建 额外 的 进程 ， 这 要 求 代码 从 _main _ 代码 块 开始 





执行 。 首 先 ， 我 们 对 特征 进行 了 缩放 使 每 个 特 名 
分 为 训练 集 和 测试 集 ， 然 后 我 们 初始 化 SVC 对 象 ， 也 就 是 支持 向 量 分 类 器 。SVC 构造 器 有 
kernel, gamma 和 C 关键 字 参 数 。kernel 关键 字 参 数 指明 了 需要 使 用 的 核 。scikit-learn X 


























E 都 在 原点 附近 。 接 着 我 们 将 预 处 理 的 数据 





























提供 了 线性 核 函 数 、 多 项 式 核 函数 、S 形 曲 线 核 函 数 以 及 径 向 基 核 函数 的 实现 。 当 使 用 多 
项 式 核 函数 的 时 候 应 该 同时 设置 关键 字 参 数 degree。 参 数 C 控制 正则 化 ， 它 和 我 们 在 逻辑 
回归 中 使 用 的 lambda 超 参 数 类 似 。 关 键 字 参数 gamma 针对 于 S 形 曲 线 核 函 数 、 多 项 式 核 



































函数 以 及 RBF 核 函 数 的 核 系 数 。 设 置 这 些 

















超 参 数 





民有 挑战 ， 























因此 我 们 通过 网 格 搜寻 来 进行 











微调 。 最 好 的 模型 的 Fl 得 分 是 0.97， 当 在 超过 前 10000 个 实例 上 进行 训练 时 这 个 得 分 还 会 





继续 增加 。 


11.3.2 ”自然 图 片 字符 分 类 
































现在 让 我 们 来 尝试 一 个 更 具 挑 战 的 问题 。 我 们 将 对 自然 图 片 中 的 字母 数字 字符 进行 分 
类 。Chars74K 数据 集 包 含 超过 74000 张 图 片 ， 其 中 包括 数字 0 一 9 以 及 英语 大 小 写字 母 的 
字符 。 图 11.5 是 3 个 小 写字 母 z 的 例子 。Chars74K 数据 集 可 以 从 http://www.ee.surrey.ac.uk/ 





CVSSP/demos/chars74k/#download 下 载 。 














图 11.5 








该 集合 由 儿 种 类 型 的 图 片 组 成 。 我们 将 使 用 7705 张 字 符 图 片 ,这些 图 片 抽样 自从 印度 
班加罗尔 拍摄 的 街景 照片 。 和 MNIST 数据 集 不 同 ， 这 部 分 Chars74K 数据 集中 的 图 片 描绘 

















的 字符 在 字体 、 颜 色 和 干扰 上 各 不 相同 
GoodImg/Bmp/ 目 录 下 的 文件 ， 如 代码 11.3 











代码 11.3 
# In[1]: 
import os 


import numpy as np 


。 在 解压 文 介 














所 示 。 


from sklearn.pipeline import Pipeline 





























FF 之后， 我 们 将 使 用 English/Img/ 


11.3 用 scikit-learn 分 类 字符 


from sklearn.svm import SVC 

from sklearn.model_ selection import train test split 
from sklearn.grid_ search import GridSearchCv 

from sklearn.metrics import classification report 
from PIL import Image 


y=] 
for path, subdirs, files in os.walk('data/English/Img/GoodImg/Bmp/'): 





for filename in files: 


f = os.path.join(path, filename) 





target = filename[3:filename.index('-') ] 
img = Image.open(f).convert('L').resize((30, 30), 
resample=Image.LANCZOS) 
X.append(np.array (img) .reshape(900,)) 
y.append (target) 
X = np.array (X) 


























首先 我 们 加 载 了 数据 ， 并 使 用 Pillow 类 库 将 图 片 转换 为 灰 度 图 片 。 和 前 面 的 例子 一 


BE, 我 们 将 代码 包 囊 在 main 模块 中 , 以 便 在 网 格 搜寻 的 过 程 中 创建 额外 的 进程 .和 MNIST 
数据 集 不 同 ，Chars74K 数据 集中 的 图 片 并 没有 固定 的 维度 ， 因 此 我 们 将 图 片 大 小 调整 为 每 



























































边 30 像素 。 最 后 ， 我 们 将 图 片 转换 为 一 个 Numpy 数组 ， 如 代码 11.4 所 示 。 





代码 11.4 


In[2]: 


X train, X test, y train, y test = train test split (xX, y, test_size=.1, 


random_state=11) 





pipeline = Pipeline ([ 
('clf', SVC (kernel='rbf', gamma=0.01, C=100)) 
]) 


parameters = { 
'clf gamma': (0.01, 0.03, 0.1, 0.3, 1), 
Ned Ces 00d 0m3 Ly Sy tOr 30); 

} 

LE name == ' main ': 





grid search = GridSearchCV (pipeline, parameters, n_jobs=3, 





verbose=1, scoring='accuracy') 

grid_search.fit(X_train, y train) 

print ('Best score: %0.3f' % grid_search.best_ score ) 
print('Best parameters set:') 

best parameters = grid_search.best_estimator_.get_params () 


152 第 11 章 从 感知 机 到 支持 向 量 机 





for param_name in sorted(parameters.keys()): 
print('\t%Ss: Sr' $ (param name, 
best_parameters[param_name] ) ) 
predictions = grid_search.predict (X test) 
print (classification report (y test, predictions) ) 


# Out [2]: 
todo 


正如 MNIST 例子 ， 我 们 使 用 网 格 搜寻 来 对 模型 的 超 参 数 进行 微调 。GriqSsearchcV 
类 在 所 有 的 训练 数据 上 使 用 最 好 的 超 参数 设置 来 重新 训练 模型 。 接 着 我 们 将 在 测试 数据 上 
评估 模型 。 很 明显 这 是 一 个 比 MNIST 数字 分 类 更 有 挑战 的 任务 ， 字 符 在 外 观 上 各 不 相同 ， 
同时 由 于 图 片 从 照片 中 采样 而 不 是 来 自 于 扫描 文档 ， 字 符 的 干扰 更 加 剧烈 。 另 外 ， 比 起 
MNIST 数据 集 来 说 ，Chars74K 数据 集 的 每 一 个 类 可 训练 的 实例 更 少 。 除 去 这 些 挑战 ， 这 
个 分 类 器 运行 的 依然 很 不 错 。 通 过 增加 训练 数据 ， 对 图 片 进行 不 同 的 预 处 理 ， 或 者 使 用 更 
加 细致 的 特征 表示 ， 都 能 提升 模型 的 性 能 。 
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11.4 小结 























在 本 章 中 , 我 们 讨论 了 文 持 向 量 机 SVM, 一 种 可 用 于 分 类 任务 和 回归 任务 的 强大 模型 。 
SVM 可 以 将 线性 不 可 分 类 的 特征 有 效 地 映射 到 更 高 维度 的 空间 中 。SVM 也 也 可 以 最 大 化 
决策 边界 和 与 之 最 靠近 的 训练 实例 之 间 的 边 距 。 在 下 一 章 中 , 我 们 将 讨论 被 称 作 ANN 的 模 
型 。 和 SVM 一样， 它们 都 扩展 了 感知 机 来 突破 感知 机 的 局 限 。 


















































在 第 10 章 中 ， 我 们 介绍 了 感知 机 ， 一 种 月 





























第 12 章 
从 感知 机 到 人 工 神经 网 络 














于 二 元 分 类 的 线性 模型 。 我 们 了 解 到 感知 机 
并 不 是 一 种 通用 的 函数 逼近 器 ， 它 的 决策 边界 必须 是 一 个 超 平面 。 在 第 11 章 中 ,我 们 介绍 














了 SVM,， 它 通过 使 用 核 函 数 将 特征 表示 映射 到 可 能 会 使 分 类 线性 可 分 的 更 高 维度 空间 ， 死 


服 了 感知 机 的 一 些 局 限 。 在 本 章 


的 强大 非 线 性 模型 ， 

















个 神经 元 ， 那 么 ANN 或 者 说 神经 网 络 ， 就 应 该 类 比 为 一 个 大 脑 。 正 如 一 个 人 类 的 大 脑 ! 



































PF， 我 们 将 讨论 ANN， 一 种 可 用 于 监督 任务 和 非 监督 任务 





它 使 用 一 种 不 同 的 策略 来 克服 感知 机 的 局 限 。 如 果 将 感知 机 类 比 为 一 








数 十 亿 个 神经 元 和 数 万 亿 个 突 角 
图 的 边 表 示 权 重 ， 这 些 权重 都 是 模 












































kh 组 成 一 样 ， 一 个 ANN 是 一 个 由 人 工 神经 元 组 成 的 有 向 图 。 




















本 章 将 提供 一 个 关于 小 型 前 馈 人 了 














用 于 分 类 、 回 归 和 








RI >s 




















形 处 理 单元 进行 j 











神经 网 络 需 要 消耗 大 量 的 自 







































































用 的 机 器 学 习 类 库 。 





加 速 还 不 成 熟 但 是 在 迅速 的 发 展 9 





























虽然 我 们 不 会 使 用 scikit-learn 








型 需要 学 习 的 参数 。 


[神经 网 络 结构 和 训练 的 概述 。scik 





力 ， 在 实际 
| 练 。scikit-learn 类 库 不 支持 GPU, 而 

































































类 库 来 训练 一 个 用 于 目标 识别 的 深 























( CNN ) 或 者 用 于 语音 识别 的 递归 网 络 ， 理 解 将 要 训练 的 小 型 网 络 的 原理 

















说 是 重要 的 先决 条 件 。 


























it-learn 类 库 实 现 


I 特征 提取 的 神经 网 络 。 然 而 ， 这 些 实现 仅仅 适用 于 小 型 网 络 。 训 练 一 
PF 大 多 数 神经 网 络 使 用 包含 上 千 个 并 行 处 理 核 的 
昌 在 近期 也 没有 支持 的 打算 。GPU 
H, 在 scikit-learn 类 库 中 提供 对 GPU 的 支持 将 会 增加 许多 
依赖 项 ， 而 这 与 scikit-learn 项 目 “ 轻 松 在 各 种 平台 上 安装 ”的 目标 有 所 冲突 。 另 外 ， 其 他 
机 器 学 习 算 法 很 少 需要 使 用 GPU 加 速 来 达到 和 神经 网 络 相同 的 程度 。 训 练 神经 网 络 最 好 使 
用 专门 的 类 库 例 如 Caffe、TensorFlow 和 Keras 来 实现 ， 而 不 要 使 用 像 scikit-learn 这 样 的 通 



































度 卷 积 神经 网 络 





























对 于 这 些 任务 来 
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12.1 非 线性 决策 边界 




















回顾 第 10 章 ， 虽 然 一 些 布 尔 函 数 例 如 AND、OR 和 NAND 可 以 用 感知 机 来 甫 近 ， 线 
性 不 可 分 函数 XOR 却 不 能 ， 如 图 12.1 所 示 。 


AND NAND OR XOR 
1 > 1 1 1 
0 0 0 0 
0 1 0 1 0 1 0 1 


图 12.1 


























让 我 们 回顾 XOR 函数 的 更 多 细节 来 建立 一 种 关于 ANN 能 力 的 直觉 .和 AND 函数 ( 当 
输入 都 等 于 工时 输出 才 等 于 1) 以 及 OR 函数 ( 当 输 入 至 少 有 一 个 等 于 1 输出 才 等 于 1) 不 
同 ， 只 有 当 一 个 输入 等 于 工时 ，XOR 函数 的 输出 才 等 于 1。 当 两 个 条 件 都 为 真 时 ， 我 们 可 
以 将 XOR 函数 的 输出 看 作 1。 第 1 个 条 件 是 至 少 有 一 个 输出 项 等 于 1， 这 个 条 件 和 OR K 
数 的 检验 条 件 相 同 。 第 2 个 条 件 是 输入 项 不 能 都 等 于 1， 这 个 条 件 和 NAND 函数 的 检验 条 
件 相 同 。 我 们 可 以 通过 将 输入 项 目 同时 使 用 OR 函数 和 NAND 函数 处 理 ， 然 后 使 用 AND 
函数 来 验证 两 个 函数 的 输出 结果 是 否 都 等 于 1, 来 得 到 XOR 函数 的 处 理 输出 结果 。 也 就 是 
Bi, OR 函数 、NAND 函数 和 AND 函数 可 以 通过 组 合 得 到 和 KOR 函数 相同 的 输出 结果 。 

K 12.1 是 关于 输入 A 和 输入 B 对 于 XOR 函数 、OR 函数 、AND A% NAND 函数 
的 真实 值 表 格 。 从 这 个 表格 中 我 们 可 以 验证 输入 A 和 输入 B 经 过 OR 函数 的 输出 和 NAND 
函数 的 输出 再 经 过 AND 函数 处 理 的 输出 结果 ,和 直接 经 过 XOR 函数 处 理 的 输出 结果 相同 ， 
如 表 12.2 所 示 。 
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表 12.1 
A B AANDB ANAND B AORB A XORB 
0 0 0 1 0 0 
0 1 0 1 1 1 
1 0 0 1 1 1 
1 1 1 0 1 0 
















































































表 12.2 

A B AORB ANAND B (A OR B) AND (A NAND B) 

0 0 0 1 0 

0 1 1 1 1 

1 0 1 1 1 

1 1 1 0 0 

我 们 不 会 尝试 使 用 单个 感知 机 来 表示 XOR 函数 ,我 们 将 使 用 多 个 人 工 神 经 元 创建 一 个 
ANN， 其 中 每 个 人 工 神 经 元 都 将 逼近 一 个 线性 函数 。 每 一 个 实例 的 特征 表示 将 会 是 一 个 对 
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两 个 神经 元 的 输出 结果 将 会 | 








的 条 件 都 为 真 。 



































点 两 个 神经 元 的 输入 项 ， 一 个 


























神经 元 将 表示 NAND 函数 ， 另 一 个 神经 元 表示 OR 函数 。 这 
第 3 个 表示 AND 函数 的 神经 元 接收 ， 它 用 来 检测 所 有 XOR 





12.2 ”前 馈 人 工 神 经 网 络 和 反馈 人 工 神经 网 络 














ANN 可 以 由 3 个 关键 组 件 来 描述 。 第 1 个 关键 组 件 是 模型 的 架构 或 者 说 拓扑 ， 它 描述 
了 神经 元 的 类 型 和 神经 元 之 间 的 连接 结构 。 第 2 个 关键 组 件 是 人 工 神经 元 使 用 的 激活 函数 。 


























第 3 个 关键 组 件 是 找 出 权重 最 优 值 
ANN 主要 有 两 种 类 型 。 



































的 学 习 算 法 。 








HIS tate 


























在 前 馈 神经 网 络 中 ， 信 息 只 
递归 神经 网 络 包含 循环 。 反 馈 循环 可 以 表示 网 络 的 一 利 


EANN De 























FEJ HA EA ERE Th 
出 的 函数 。 例 如 , 一 个 前 馈 
产品 的 订阅 用 户 流 失 的 可 能 性 。 反 馈 社 
馈 神 经 网 络 已 经 被 用 于 克 
在 scikit-learn 类 库 中 实现 ， 我 们 将 把 讨 


12.3 SERRA 


























[发 和 
神经 网 络 可 以 被 用 于 识别 























语言 之 间 翻 译文 档 和 自动 转录 演讲 。 因 为 反馈 神经 网 络 没有 
论 的 话题 仅 限于 前 馈 神经 网 络 。 









































经 网 络 是 最 常见 的 类 型 ， 它 通过 有 向 非 循环 图 来 定义 。 
上 朝 着 输出 层 进行 传递 。 相 反 ， 反 馈 神 经 网 络 或 者 
内 部 状态 ， 它 会 导致 网 络 的 行为 基 
E 变 化 。 前 馈 神 经 网 络 经 常用 于 学 习 一 个 将 输入 映射 到 输 
张 照片 中 的 物体 , 或 者 预测 一 个 SaaS 
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多 层 感 知 机 是 一 个 简单 的 ANN。 然 而 ， 它 的 名 字 是 一 种 误 称 。 一 个 多 层 感知 机 的 并 不 





每 一 层 只 包含 单一 的 感知 




















机 的 多 层 结构 , 而 











是 
多 层 感知 机 包含 3 层 或 者 更 多 层 人 工 4 


























人 工 神 经 元 模拟 感知 机 的 多 层 结 构 。 




















经 元 ， 这 些 神经 元 形成 了 一 个 有 向 、 非 循环 图 。 一 








般 地 ， 每 层 和 后 面 的 层 都 是 全 连接 ， 一 个 层 中 的 每 个 人 工 神 经 元 的 输出 项 或 者 说 激活 项 ， 
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都 是 下 一 层 中 每 个 人 了 
元 至 少 和 一 个 隐 层 连接 。 隐 层 表 示 潜 在 变量 ， 这 些 变 量 在 
中 隐藏 神经 元 通常 被 称 为 隐 单 元 。 最 后 

















变量 的 预测 值 。 图 
常量 偏差 神经 元 ， 





































































































[神经 元 的 输入 项 。 特 征 通过 输入 层 进行 输入 。 输 入 层 中 的 简单 神经 
| 练 数据 中 无 法 被 观测 到 。 隐 层 
个 隐 层 和 一 个 输出 层 连接 ， 该 层 的 激活 项 是 响应 

















12.2 描述 了 一 个 包含 3 层 感 知 机 的 多 层 感知 机 结构 。 标 有 +L 的 神经 元 是 
在 大 多 数 架 构图 中 并 不 出 现 。 这 个 神经 网 络 有 两 个 输入 神经 元 ，3 个 隐 
神经 元 以 及 2 个 输出 神经 元 。 






































输入 层 并 不 包含 在 一 个 神经 网 络 的 层 数 计算 中 ， 但 
MLPClassifier.n_layers 属性 的 计数 会 包含 输入 层 。 





回顾 第 10 Be, 一 个 感知 机 包括 一 个 或 多 个 二 元 输出 、 一 个 二 元 输出 以 及 一 个 海 维 赛 德 


阶 路 激活 函数 。 一 个 感知 机 的 权重 的 微小 变化 对 其 输出 没有 影响 ， 或 者 将 导致 输出 从 1 变 


到 0 或 者 从 0 到 1 
E 因 如 此 ， 我 们 将 使 












































多 个 实 值 输入 和 

















曲线 激活 函数 是 阶 跃 函数 的 》 


个 实 值 输出 ， 它 使 月 

















昌 一 个 S 型 












































。 这 个 特性 将 导致 我 们 改变 神经 网 络 的 权重 时 难以 去 理解 其 性 能 变化 。 











线 激 活 函 数 。 如 




















] 一 种 不 同类 型 的 神经 元 创建 MLP。 一 个 S 型 曲线 神经 元 包含 一 个 或 


图 12.3 所 示 ， 一 个 S 型 





f 滑 版 本 ， 它 在 极 值 区 间 内 逼近 一 个 阶 跃 函数 ， 但 是 可 以 输出 
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0 一 1 之 间 的 任何 值 ， 这 允许 我 们 可 以 理解 输入 项 的 变化 如 何 影响 输出 项 。 
1 








12.4 训练 多 层 感 知 机 


在 本 节 内 容 中 ， 我 们 将 讨论 如 何 训练 一 个 多 层 感 知 机 。 回 顾 第 5 章 ， 我 们 可 以 使 用 梯 
度 下 降 法 来 将 一 个 包含 许多 变量 的 实 值 函数 C 极 小 化 。 假 设 C 是 一 个 包含 两 个 变量 v 和 
的 函数 。 为 了 理解 如 何 通 过 改变 变量 来 使 C 极 小 化 ， 我 们 需要 一 个 变量 上 的 小 变化 来 产 
生 输 出 上 的 一 个 小 变化 。 我 们 将 vi 值 的 一 个 变化 表示 为 Av1，v 值 的 一 个 变化 表示 为 Av，，C 
值 的 一 个 变化 表示 为 AC。AC 和 变量 变化 之 间 的 关系 如 公式 12.1 所 示 : 

























































































AC ~ EO Ny g iy (公式 12.1) 
Ov Ov, 


< 表示 C 对 于 vi 的 偏 微分 。 为 了 方便 ， 我 们 将 Av1 和 Am 表示 为 一 个 向 量 ， 如 公式 12.2 所 
Vi 

















Av = (Av,, Av, )” (公式 12.2) 


我 们 也 将 把 C 对 每 个 变量 的 偏 微 分 表示 为 C 的 梯度 向 量 YC， 如 公式 12.3 所 示 : 


T 
AC (2.2) (公式 12.3) 
Ov, ðv, 
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我 们 可 以 将 AC 的 公式 重 写 为 公式 12.4: 
AC =VCAv (公式 12.4) 


在 每 次 迭代 中 ，AC 应 该 为 负数 以 减 小 代价 函数 的 值 。 为 了 保证 AC 为 负数 ， 我 们 将 Av 
设 为 公式 12.5: 























Av=—nVC (公式 12.5) 
在 公式 12.5 中 ，w 是 一 个 称 为 学 习 速 率 的 超 参数 。 我 们 蔡 换 Av 来 前 明 为 什么 AC 是 负 
数 ， 如 公式 12.6 frm: 
Av=-79VCeVC (公式 12.6) 


VC 的 平方 总 是 大 于 0， 我 们 将 其 乘 以 学 习 速 率 ， 并 对 乘积 求 反 。 在 每 一 次 迭代 中 ， 我 
们 都 将 计算 C 的 梯度 VC, 并 更 新 变量 在 下 降 最 快 的 方向 上 迈 出 一 步 , 为 了 训练 多 层 感 知 机 ， 
我 们 省 略 了 一 个 重要 的 细节 : 如 何 理解 隐 单 元 权重 的 变化 如 何 影响 代价 函数 ? 更 具体 来 说 ， 
如 何 计算 代价 函数 对 于 连接 隐 层 的 权重 的 偏 导 数 ? 


12.4.1 反问 传播 


我 们 已 经 了 解 了 梯度 下 降 法 通过 计算 一 个 函数 梯度 并 使 用 梯度 来 更 新 函数 的 参数 来 迭 
代 地 将 函数 极 小 化 。 为 了 极 小 化 多 层 感知 机 的 代价 函数 ， 我 们 需要 计算 其 梯度 。 回 顾 多 层 
感知 机 包含 能 够 代表 潜在 变量 的 单元 层 。 我 们 不 能 使 用 一 个 代价 函数 计算 它们 的 误差 。 训 
练 数据 表明 了 整个 网 络 的 期 望 输出 ， 但 是 没有 描述 隐 单 元 应 该 如 何 影 响 输出 结果 。 由 于 我 
们 不 能 计算 隐 单 元 的 误差 ， 不 能 计算 它们 的 梯度 ， 或 者 更 新 他 们 的 权重 。 对 于 该 问题 一 种 
简单 的 解决 方法 是 随机 修改 隐 单 元 的 梯度 。 如 果 一 个 梯度 的 随机 变化 能 减少 代价 函数 值 ， 
则 该 权重 被 更 新 则 时 评估 另 一 个 变化 。 即 使 是 对 于 普通 的 网 络 ， 这 个 方法 对 算 力 的 消耗 都 
是 非常 巨大 的 。 在 本 节 内 容 中 ， 我 们 将 描述 一 种 更 加 有 效 的 解决 方法 ， 使 用 反 向 传播 算法 
计算 一 个 神经 网 络 的 代价 函数 针对 其 每 一 个 权重 的 梯度 。 反 向 传播 法 允许 我 们 理解 每 个 权 
重 如 何 影 响 误差 ， 以 及 如 何 更 新 权重 来 极 小 化 代价 函数 。 

这 个 算法 的 名 字 是 反 向 和 传播 的 合成 词 , 它 指 代 当 计算 梯度 时 误差 穿 过 网 络 层 的 方向 。 
反问 传播 法 经 常 和 一 个 优化 算法 〔 例 如 梯度 下 降 法 ) 联合 使 用 来 训练 前 馈 神经 网 络 。 理 论 
上 来 说 ， 它 能 用 于 训练 包含 任何 数量 隐 单 元 和 任何 数量 层 的 前 馈 网 络 。 

和 梯度 下 降 法 一 样 ， 反 向 传播 法 是 一 种 迭代 算法 ， 每 次 迭代 包含 两 个 阶段 。 第 1 个 阶 
段 是 向 前 传播 或 者 向 前 传递 。 在 向 前 传递 阶段 ， 输 入 通过 网 络 的 神经 元 层 向 前 传播 直到 它 
们 到 达 输 出 层 。 接 着 损失 函数 可 以 用 来 计算 预测 的 误差 。 第 2 个 阶段 是 向 后 传播 阶段 。 误 
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差 从 代价 函数 向 输入 传播 以 便 每 个 神经 元 对 于 误差 的 贡献 能 够 被 估计 。 该 过 程 基 于 链 式 法 
人 
以 通过 组 合 线 性 函数 来 逼近 复杂 的 非 线 性 函数 。 这 些 误差 接 下 来 可 以 用 于 计算 梯度 下 降 法 
ee 























































































































于 更 新 权重 的 梯度 值 。 当 梯度 完成 更 新 之 后 ， 特 征 可 以 再 次 通过 网 络 向 前 传播 开始 
LR. 





























链 式 法 则 可 以 用 来 计算 两 个 或 者 多 个 函数 组 合 的 导 
ap 数 。 假 设 变 量 z 依 赖 于 y, y 依 赖 于 x。z 针对 x 的 导数 
dz dy 


可 以 aZ- 
ae dx dy dx 














为 了 向 前 传播 通过 一 个 网 络 ， 我 们 计算 在 一 个 层 中 神经 元 的 激活 项 ， 同 时 将 激活 项 作 
为 下 一 个 层 中 与 之 连接 的 神经 元 的 输入 项 。 为 了 完成 这 些 工作 ， 我 们 首先 需要 计算 出 网 络 
层 中 每 个 神经 元 的 预 激活 项 。 回 顾 一 个 神经 元 的 预 激 活 项 是 其 输入 项 和 权重 的 线性 组 合 。 
接着 ， 我 们 通过 将 其 激活 函数 应 用 于 其 预 激活 项 上 来 计算 出 其 激活 项 。 该 层 的 激活 项 会 成 
为 网 络 中 下 一 层 的 输入 项 。 

为 了 反 向 传播 穿 过 网 络 ， 我 们 首先 计算 出 代价 函数 针对 最 后 隐 层 每 一 个 激活 项 的 偏 导 
数 。 接 着 ， 我 们 计算 最 后 隐 层 的 激活 项 针对 其 预 激活 项 的 偏 导 数 。 接 下 来 ， 计 算 最 后 隐 层 的 
预 激活 项 针对 其 权重 的 偏 导 数 ， 如 此 反复 直到 到 达 输 入 层 。 经 过 这 个 过 程 ， 我 们 远近 了 每 个 
神经 元 对 于 误差 的 贡献 ， 同 时 计算 出 用 来 更 新 权重 里 那个 和 极 小 化 代价 函数 所 必需 的 梯度 
值 。 更 具体 地 ， 对 于 每 一 层 中 的 每 一 个 单元 ， 我 们 必须 计算 两 个 俩 导数 。 第 一 个 是 误差 针对 
单元 激活 项 的 偏 导 数 。 该 导数 不 用 于 更 新 单元 的 权重 ， 相 反 ， 它 用 于 更 新 与 该 单元 相连 接 的 
前 面 一 层 中 的 单元 权重 。 第 二 ， 我 们 将 计算 误差 针对 该 单元 权重 的 导数 以 便 更 新 权重 值 和 极 
小 化 代价 函数 。 接 下 来 了 解 一 个 例子 。 我 们 将 训练 一 个 包含 两 个 输入 单元 ， 一 个 包含 两 个 隐 
单元 的 隐 层 ， 以 及 一 个 输出 单元 的 神经 网 络 ， 其 架构 图 如 图 12.4 所 示 。 


让 我 们 假设 权重 的 初始 值 如 表 12.3 所 示 。 
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R 12.3 
权 Ẹ 值 
Wi 0.4 
w2 0.3 
W3 0.8 
W4 0.1 
Ws 0.6 
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续 表 
权 重 值 
Wo 0.2 
bı 0.5 
by 0.2 
b; 0.9 
输入 层 隐 层 输出 层 








图 12.4 
































特征 向 量 是 [0.8,0.3]， 响 应 变量 的 真实 值 是 0.5。 让 我 们 计算 第 一 次 向 前 传递 的 值 ， 从 
隐 单 元 加 开始 。 首先 计算 hy 的 预 激活 项 , 接着 将 逻辑 S 型 曲线 函数 运用 于 预 激 活 项 计算 激 
活 项 目 ， 如 公式 12.7 Pra: 
























































pre, = Wi + wi, + b, 


pre, =0.4x0.8+0.8x0.3+0.5=1.06 CAR 12.7) 
act, = 
1l+e™™ 














我 们 可 以 使 用 同样 的 过 程 计 算 的 激活 项 ， 计 算 结果 为 0.615。 接 着 将 隐 单 元 如 和 加 
的 激活 项 目 作 为 输出 层 的 输入 项 ， 类 似 地 计算 出 ol 的 激活 项 ， 计 算 结果 为 0.813。 现 在 我 
们 可 以 计算 网 络 预测 的 误差 。 对 于 这 个 网 络 ， 我 们 将 使 用 平方 误差 代价 函数 ， 公 式 如 12.8 
JAN: 






































-oO 一 (公式 12.8) 
i=l 

















在 公式 12.8 P, n ERT OCB, 9, 是 输出 神经 元 0; 的 激活 项 ，y; 是 响应 变量 的 








12.4 ”训练 多 层 感知 机 161 








真实 值 。 我 们 的 网 络 只 有 一 个 输出 单元 ， 因 此 n 等 于 1。 网 络 的 预测 值 是 0.813， 响 应 变量 



























































的 真实 值 是 0.5， 因 此 误差 是 0.313。 现 在 我 们 可 以 更 新 权重 ws。 首先 计 入 £ ， 或 者 说 改 
Ws 
变 ws 看 它 如 何 影响 误差 。 根 据 链 式 法 则 ， < GE rE NK 17.9: 
OE, cole O o (公式 12.9) 





Ow, Oact, Opre, Ow; 


也 就 是 说 ， 我 们 能 够 通过 回答 下 列 问题 来 逼近 误差 的 变化 和 ws 之 间 的 联系 程度 。 
。 ol 的 激活 项 的 变化 能 够 对 误差 造成 多 大 影响 ? 

© o1 预 激活 项 的 变化 能 对 激活 项 o1 造成 多 大 影响 ? 

。 权重 ws 的 变化 能 对 预 激活 项 ol 造成 多 大 影响 ? 












































接着 我 们 将 从 ws ds Z BRA EHC 更 新 权重 。 WW IRA RM 


























和 激活 项 o1 之 间 的 联系 程度 来 回答 第 一 个 问题。 代价 函数 针对 输出 单元 激活 项 的 偏 导 数 如 
公式 12.10 所 示 : 








OF 
Oact, 





=—(y, — act, ) 
(公式 12.10) 
OP 


Oact, 





=—(0.5—0.813) = 0.313 

















接着 我 们 通过 逼近 ol 的 激活 项 变化 和 其 预 激 活 项 之 间 的 联系 程度 来 回答 第 二 个 问题 。 
逻辑 函数 的 偏 导 数 如 公式 12.11 所 示 : 









































/= OMA FW) (公式 12.11) 


在 公式 12.11 中 ，ftx) 是 逻辑 函数 ， 对 应 的 公式 为 (1l+e ”)。 





Oact 


ol 





=act, (1—act, ) 
Opre, 
(公式 12.12) 
Oact, 
— =0.813 x (1— 0.813) = 0.152 


Opre, 


最 后 ， 我 们 将 逼近 预 激活 项 ol 的 变化 和 ws 有 多 大 关系 。 预 激活 项 是 权重 和 输入 项 的 
线性 组 合 ， 如 公式 12.13 所 示 : 











pre, =w,act, + w,act, +b, 


Opre, (公式 12.13) 
—— =lxact, xw; +0+0=act, =0.743 
Ow, 1 1 











偏差 项 ba 和 weact, 的 导数 都 是 0。 这 两 项 对 于 ws 来 说 都 是 常数 , ws 的 变化 对 weact, 没 





























有 影响 。 现 在 我 们 已 经 回答 了 3 个 问题 ， 我 们 可 以 计算 出 误差 针对 ws 的 偏 导数 ， 如 公式 
12.14 所 示 : 























=0313x0.152x 0.743=0.035 (公式 12.14) 


Ws 









































我 们 现在 可 以 通过 从 ws! 减 去 学 习 速率 和 .5 的 乘积 来 更 新 ws 的 值 。 接 着 我 我 们 可 















































以 遵循 同样 的 处 理 方式 来 更 新 剩余 的 权重 。 完 成 了 第 一 次 向 后 传递 之 后 ， 我 们 可 以 使 用 更 
新 后 的 权重 值 来 再 次 通过 网 络 向 前 传播 


12.4.2 ”训练 一 个 多 层 感 知 机 逼近 XOR 函数 


让 我 们 使 用 scikit-learn 类 库 训 练 一 个 网 络 来 逼近 XOR 函数 。 我 们 为 MLPClassifier 
构造 函数 传递 activation='1logistic' 关 键 字 变量 来 为 神经 元 指定 应 该 使 用 逻辑 S 型 
曲线 激活 函数 。Hidden layer sizes 参数 接受 一 个 整数 元 组 来 标明 每 一 个 隐 层 中 的 隐 
单元 数量 。 我 们 将 使 用 和 前 一 节 内 容 中 相同 的 网 络 架 构 训练 一 个 网 络 ， 该 网 络 包含 一 个 含 
有 两 个 隐 单 元 的 隐 层 ， 以 及 一 个 包含 一 个 输出 单元 的 输出 层 ， 如 代码 12.1 所 示 。 









































































































































代码 12.1 

# In[1]: 

from sklearn.model selection import train test split 
from sklearn.neural network import MLPClassifier 





y= [0, 1, 1, 0] 
X= [[0, 0], (0, 1], (1, 0], (1, 1]] 


clf = MLPClassifier(solver='lbfgs', activation='logistic', 





hidden _ layer sizes=(2,), random state=20) 
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clf.fit(X, y) 


predictions = clf.predict (X) 
print ('Accuracy: %s' % clf.score(X, y)) 
for i, p in enumerate (predictions): 


o 


print ('True: %s, Predicted: %s' % (y[il, p)) 


Out [1]: 
Accuracy: 1.0 
True: 0, Predicted: 


m 


rue: 1, Predicted: 








0 
True: 1, Predicted: 1 
1 
0 


True: 0, Predicted: 
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成 一 次 向 前 传递 ， 如 代码 12.2 所 示 。 


代码 12.2 

# In[2]: 

print ('Weights connecting the input layer and the hidden layer: 

clf.coefs [0]) 

print ('Hidden layer bias weights: \n%s' % clf.intercepts [0]) 

print ('Weights connecting the hidden layer and the output layer: 
\n%s' % clf.coefs [1]) 

print ('Output layer bias weight: \n%s' % clf.intercepts [1]) 


Out [2]: 

Weights connecting the input layer and the hidden layer: 
[ 6.11803955 6.35656369] 

[ 5.79147859 6.14551916] ] 

Hidden layer bias weights: 

-9.38637909 -2.77751771] 

Weights connecting the hidden layer and the output layer: 
[-14.95481734] 

[ 14.53080968] ] 

Output layer bias weight: 

-7.2284531] 


为 了 向 前 传播 ， 我 们 需要 计算 下 列 公 式 ， 如 公式 12.15 所 示 。 

















pre, = b + wi, + wi 


\ngss' 


Q 
© 


164 第 12 章 从 感知 机 到 人 工 神经 网 络 


pre, =b, +w,act, + w,act,, 


pre, =—9.38637909 + 6.118039055 x1 + 5.79147859 x 1 = 2.523 


act, = ee = 0.926 


1 wa e75? 


pre, =—2.71151771 + 6.3565639 x 1 + 6.14551916x1=9.725 


1 


= [ago 


act, =1.000 


pre, = —7.2284531 + (-14.95481734 x 0.926) + 14.53080968 x 1 = -6.546 


act = 0.001 (公式 12.15) 


a [4 et 
响应 变量 为 正 向 类 的 概率 是 0.001， 网 络 预测 1@1=0。 
12.4.3 ”训练 一 个 多 层 感 知 机 分 类 手写 数字 


在 上 一 章 中 ， 我 们 使 用 了 一 个 SVM 来 分 类 MNIST 数据 集中 的 手写 数字 。 在 本 节 内 容 
中 ， 我 们 将 使 用 一 个 ANN 来 对 这 些 图 片 进 行 分 类 ， 如 代码 12.3 所 示 。 





















































代码 12.3 
# In[1]: 
from sklearn.datasets import load digits 
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from sklearn.model_ selection import cross val score 
from sklearn.pipeline import Pipeline 


from sklearn.preprocessing import StandardScaler 





from sklearn.neural network.multilayer perceptron import 
MLPClassifier 


if name == ' main ': 





digits = load digits () 
X = digits.data 
y = digits.target 
pipeline = Pipeline ([ 
('ss', StandardScaler()), 
('mlp', MLPClassifier (hidden layer sizes=(150, 100), 
alpha=0.1, max _iter=300, random_state=20) ) 








] ) 


print (cross val _score(pipeline, X, y, n_jobs=-1)) 


# Out[1]: 

[ 0.94850498 0.94991653 0.90771812] 

首先 我 们 使 用 1oaqa_qigits 便捷 函数 来 加 载 MNIST 数据 集 ， 将 在 交叉 验证 期 间 生 
成 额外 的 进程 ， 这 需要 代码 从 一 个 main 保护 代码 块 中 开始 执行 。 对 特征 进行 缩放 对 ANN 
来 说 非常 重要 ， 同 时 这 样 将 保证 一 些 学 习 算法 更 快 的 收敛 。 接 着 ,我们 在 拟 合 一 个 
MLPClassifier 类 之 前 ， 创 建 一 人 Pipeline 对 数据 进行 缩放 。 网 络 包含 一 个 输出 层 ， 
一 个 包含 150 个 单元 的 隐 层 ， 第 二 个 隐 层 包含 100 个 单元 以 及 一 个 输出 层 。 我 们 也 增加 了 
正则 化 超 参 数 alpha， 同 时 将 和 迭代 最 大 次 数 从 默认 的 200 增加 到 300。 最 后 ， 我 们 打印 出 
三 重 交 叉 验 证 的 准确 率 。 准 确 率 均值 和 文 持 向 量 分 类 器 的 准确 率 相 差不多 。 增 加 更 多 的 隐 
单元 或 者 隐 层 ， 另 外 使 用 网 格 搜索 来 微调 超 参 数 可 以 进一步 提升 准确 率 。 

























































































































































































12.5 小结 























在 本 章 中 ， 我 们 介绍 了 ANN 模型 ， 它 可 以 通过 组 合 人 工 神 经 元 表示 复杂 函数 用 于 分 
类 和 回归 。 我 们 特别 讨论 了 被 称 为 前 馈 神 经 网 络 的 有 向 无 循环 人 工 神经 网 络 图 。 多 层 感 知 
机 是 一 种 前 馈 神经 网 络 ， 其 每 一 层 都 和 下 一 层 全 连接 。 一 个 包含 一 个 隐 层 和 有 限 数 量 隐 单 
元 的 MLP 是 一 种 通用 的 函数 逼近 器 。 它 可 以 表示 任何 连续 函数 ,尽管 它 并 不 一 定 能 自动 学 
习 来 允 近 权重 值 。 我 们 描述 了 一 个 网 络 的 隐 层 如 何 表 示 潜 在 变量 ， 以 及 网 络 的 权重 如 何 能 
使 用 向 后 传播 算法 被 学 习 。 最 后 , 我们 使 用 了 scikit-learn 类 库 的 多 层 感 知 机 实现 来 表 近 XOR 
函数 以 及 分 类 手写 数字 。 
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在 前 面 人 





归 和 分 类 算法 。 在 本 章 中 ， 我 们 将 介绍 第 一 个 无 监督 学 习 任 务 
个 非 标记 数据 集中 发 现 类 似 观测 值 的 群 组 。 
页 ， 同 时 学 习 如 何 衡 量 它 的 性 外 








图 片 压缩 问题 











第 13 章 
K- 均 值 算法 


章节 中 ， 我 们 讨论 了 监督 学 习 任务 。 我 们 检验 了 从 标记 训练 数据 中 学 习 的 


























WEE re eS] 问题 





13.1 BR 


























回顾 第 1 E, 
或 者 聚 类 分 析 ， 是 一 种 将 观测 值 划 分 
种 衡量 标准 下 相互 之 间 比 和 其 人 
一 个 观测 值 表示 为 一 



























































RX. RART 
我 们 将 讨论 区 -均值 于 类 算法 ， 将 其 运用 到 
。 最 后 ， 我 们 将 解决 一 个 同时 包含 聚 类 和 分 类 





例如 ， 假 设 你 的 训练 数据 由 图 中 的 一 些 点 组 成 ， 如 图 13.1 所 示 。 


聚 类 可 以 生成 两 个 群 组 ， 
聚 类 也 可 以 产 出 4 个 群 组 ， 如 图 13.3 所 示 。 


用 来 探索 数据 集 。 社 交 网 络 可 以 被 聚 类 分 为 特定 的 社 群 ， 并 对 用 户 之 间 
聚 类 可 以 用 来 发 现 具 有 类 似 表达 模式 的 基因 和 群 组 。 


聚 类 经 常 被 


出 建 1 


去 的 联系 提 























Wo FEAR 














物 学 中 ， 


系统 有 时 会 使 用 聚 类 来 定位 一 个 月 





来 发 现 相似 月 





Ay 


进行 聚 类 的 例子 。 





分 别 由 方块 和 























ba 

















形 表 示 ， 如 图 13.2 所 示 。 





























昌 户 可 能 感 兴趣 的 产品 或 媒体 。 在 让 























回 


三 外 


无 监督 学 习 的 目标 是 在 非 标记 训练 数据 中 发 现 隐 藏 的 结构 或 模式 。 聚 类 
群 组 的 任务 ， 它 能 让 相同 群 组 或 者 聚 类 的 成 员 ， 在 某 
也 聚 类 的 成 员 之 间 更 加 类 似 。 正 如 监督 学 习 一 样 ， 我 们 将 
个 n- 维 向 量 。 
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失 


EFE 





























和 场 营销 中 ， 聚 类 被 用 
的 分 组 。 在 后 面 的 内 容 中 ， 我 们 将 解决 一 个 使 用 K- 均 值 算法 对 一 个 数据 集 
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E 产 3 种 新 的 样式 。 为 了 理解 每 种 样式 的 目标 顾客 群 














顾客 做 调查 并 将 结果 分 为 3 个 聚 类 。 
的 问题 可 能 并 不 需要 一 个 特定 的 聚 类 数量 ， 同 时 最 优 的 
章 的 后 面部 分 ， 我 们 将 讨论 一 种 局 

KK- 均 值 方 法 的 参数 包 折 


meth, AAMC 





























EF HX 


聚 类 图 心 的 位 置 以 及 被 分 配 到 每 个 









































H2 
RR 

















发 式 的 估计 最 优 聚 类 数量 的 方法 ， 称 为 肘 部 方法 。 
的 观测 实例 。 和 广义 





Ky 
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+ aA 
ss + ° + aê 
+ A A A 
+ i i 
+ + 
图 13.3 
13.2 KK- 均 值 算法 
K- 均 值 算法 是 一 种 聚 类 方法 ， 它 因 速 度 和 稳定 性 而 广 受 欢 迎 。K- 均 值 算 法 的 过 程 是 一 
个 迭代 移动 聚 类 中 心 ( 也 被 称 为 图 心 ) 到 聚 类 实例 的 均值 位 置 ， 并 找 出 离 图 心 最 近 的 实例 
重新 聚 类 的 过 程 。k 是 一 个 代表 眼 类 数量 的 超 参数 。K- 均 值 算法 会 自动 地 将 观测 实例 分 配 
到 不 同 的 聚 类 中 ， 但 是 无 法 决定 合适 的 从 类 数量 。k 必须 是 一 个 正 整数 ， 值 要 小 于 训练 集 
中 实例 的 数量 。 有 时 聚 类 的 数量 会 通过 聚 类 问题 的 上 下 文 来 指定 。 例 如 ， 一 个 生产 鞋 的 公 


体 ， 这 家 公司 对 





时 由 问题 的 上 下 文 来 指定 。 其 他 
聚 类 数量 可 能 也 是 不 确定 的 。 在 本 


MEA 








模型 以 及 决策 树 不 同 ，K- 均 值 算法 参数 的 最 优 值 


是 通过 极 小 化 一 个 代价 函数 来 决定 


























的 。 民 -均值 算法 的 代价 函数 的 公式 如 公式 13.1 所 示 : 
I-$ -a 


在 此 处 ， 作 代表 聚 类 大 的 图 心 ， 这 个 代价 函数 对 所 有 聚 类 的 1 





(公式 13.1) 











局 差 求 和 。 每 个 聚 类 的 偶 











差 等 于 其 包含 的 所 有 实例 和 其 图 心 之 间距 离 的 平方 和 。 对 











于 紧凑 的 聚 类 偏差 值 很 小 ， 而 对 

















13.2 KK- 均 值 算 法 169 


于 实例 很 分 散 的 聚 类 偏差 则 很 大 。 能 极 小 化 这 个 代价 函数 的 参数 在 一 个 将 观测 实例 分 配 到 
聚 类 中 并 移动 聚 类 的 从 代 过 程 中 学 习 。 首 先 ， 初 始 化 聚 类 的 图 心 ， 通 常 由 随机 选取 的 实例 
作为 初始 值 。 在 每 次 迭代 中 ，K- 均 值 算法 将 观测 实例 分 配 到 与 其 距离 最 近 的 聚 类 中 ， 然 后 
将 图 心 移动 到 观测 值 的 均值 位 置 。 让 我 们 检测 一 个 例子 ， 训 练 数据 如 表 13.1 所 示 。 
































































































































表 13.1 
实 例 Xo Xl 
1 gi 5 
2 5 7 
3 7 7 
4 3 3 
5 4 6 
6 1 4 
7 0 0 
8 2 2 
9 8 7 
10 6 8 
11 5 5 
12 3 7 

















如 表 13.1 所 示 ， 训 练 数 据 包含 两 个 解释 变量 ， 
对 应 的 点 如 图 13.4 所 示 。 


a 
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量 可 以 抽取 一 个 特征 。 所 有 实例 
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假设 K- 均 值 算法 将 第 5 个 实例 作为 第 1 个 聚 类 的 图 心 ， 第 11 个 实例 作为 第 2 个 聚 类 
的 图 心 。 我 们 将 计算 每 个 实例 到 两 个 图 心 的 距离 ， 并 将 它们 分 配给 距离 最 近 的 图 心 所 属 的 
类 。 首 次 的 分 配 情况 如 表 13.2 的 “ 聚 类 ”一 列 所 示 。 
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第 一 次 迭代 后 的 聚 类 分 配 情况 








图 13.5 





表 13.2 
实例 xo | x C1 距离 Cy 距离 上 次 聚 类 RK 是 否 有 变化 ? 
1 7 5 3.16228 2 Ke Cy 是 
2 5 7 1.41421 2 Ke Cl 是 
3 7 7 3.16228 2.82843 无 C 是 
4 3 3 3.16228 2.82843 无 Cy 是 
5 4 6 0 1.41421 J Ci 是 
6 1 4 3.60555 4.12311 无 Cl 是 
7 0 0 7.21110 7.07107 无 Co 是 
8 2 2 4.47214 4.24264 无 C 是 
9 8 7 4.12311 3.60555 无 C 是 
10 6 8 2.82843 3.16228 无 Cl 是 
11 5 5 1.41421 0 无 Cy 是 
12 3 7 1.41421 2.82843 无 Cl 是 
Ci 图 心 4 6 
C 图 心 5 5 
13.5 展示 了 图 心 和 初始 的 聚 类 分 配 。 分 配 到 第 1 个 聚 类 的 实例 用 XX 标记 ,分配 到 第 
2 个 聚 类 的 实例 用 点 标记 ， 表 示 图 心 的 标记 要 比 其 他 的 实例 大 。 
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ME, WK 13.3 所 示 ， 我 们 将 所 有 图 心 都 移动 到 聚 类 包含 实例 的 均值 位 置 ， 重 新 计算 
训练 实例 到 图 心 的 距离 , 并 重新 把 实例 分 配 到 最 近 的 图 心 所 在 聚 类 , 新 的 聚 类 情况 如 图 13.6 
所 示 。 可 注意 到 图 心 开 始 分 散 ， 一 些 实例 改变 了 分 配 情况 。 

表 13.3 

实例 Xo x Ci 距离 Cs 距离 。| 上 次 聚 类 | RX | 是 否 有 变化 ? 

1 7 5 3.492850 | 2.575394 C C F 

2 5 7 1.341641 | 2.889107 Ci Ci F 

3 7 7 3.255764 | 3.749830 G Ci 是 

4 3 3 3.492850 | 1.943067 C C F 

5 4 6 0.447214 | 1.943067 Ci Ci 否 

6 1 4 3.687818 | 3.574285 Ci C 是 

7 0 0 7.443118 | 6.169378 © C F 

8 2 2 4.753946 | 3.347250 C C F 

9 8 7 4.242641 | 4.463000 C Ci 是 

10 6 8 2.720294 | 4.113194 无 Ci 起 

11 5 5 1.843909 | 0.958315 C C F 

12 3 7 1 3.260775 Cı Ci foul 

Ci 图 心 3.8 6.4 
City | 4.571429 | 4.142857 
图 13.6 第 二 次 欠 代 之 后 的 图 心 和 聚 类 分 配 情况 。 
第 二 次 奖 代 后 的 聚 类 分 配 情况 
8 上 x 
x x x x 











图 13.6 
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现在 我 们 将 再 次 把 图 心 移动 到 聚 类 包含 实例 的 均值 位 置 ， 并 重新 分 配 实例 到 距离 最 近 
的 图 心 所 在 的 聚 类 。 图 心 继续 分 散 ， 如 图 13.7 所 示 。 
第 三 次 迭代 后 的 聚 类 分 配 情 况 
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图 13.7 

















在 下 一 次 迭代 中 ， 所 有 实例 的 分 配 情况 没有 变化 。K- 均 值 算 法 将 会 继续 迭代 直到 满足 
某 些 停止 标准 。 通 常情 况 下 ， 这 个 标准 是 当前 代价 函数 值 和 后 续 迭 代 代 价 函 数值 之 间 差 值 
的 阔 值 ， 或 者 是 当前 图 心 位 置 和 后 续 欠 代 图 心 位 置 变化 的 冰 值 。 如 果 这 些 停 止 标准 足够 小 ， 
K- 均 值 将 会 收敛 到 一 个 最 优 值 。 然而， 随 着 停止 标准 值 的 减 小 ， 收 敛 所 需 的 时 间 将 会 增 大 。 
另外， 需要 注意 到 的 一 个 重点 是 ， 无 论 停止 标准 的 值 如 何 设 置 ，K- 均 值 算法 并 不 一 定 能 收 
敛 到 全 局 最 优 值 。 


13.2.1 局 部 最 优 值 


回顾 K- 均 值 算法 经 常会 从 观测 实例 中 随机 选取 来 初始 化 图 心 。 有 时 这 些 随 机 的 初始 点 
的 选择 非常 糟糕, 会 让 导致 K- 均 值 算法 收敛 到 一 个 局 部 最 优 值 。 例如 , 假设 KK- 均 值 算法 随 
机 的 对 图 形 初始 化 ， 如 图 13.8 所 示 。 

K- 均 值 将 逐渐 收敛 到 一 个 局 部 最 优 值 ， 如 图 13.8 所 示 。 这 些 聚 类 也 许 确实 能 把 实例 进 
行 分 组 ， 但 是 上 方 和 下 方 的 观测 值 更 可 能 是 两 个 聚 类 。 一 些 局 部 组 优质 要 优 于 其 他 的 局 部 
最 优 解 。 为 了 避免 这 种 糟糕 的 初始 情况 ，K- 均 值 算法 经 常会 重复 几 十 次 到 上 百 次 。 在 每 次 
欠 代 中 ， 随 机 初始 不 同 的 初始 聚 类 的 位 置 ， 能 将 代价 函数 值 最 小 化 的 那 次 初始 化 点 将 作为 
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初始 化 点 。 
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13.2.2 ”用 肘 部 法 选择 值 


WAR k 值 不 能 由 问题 的 上 下 文 指定 ， 最 优 的 聚 类 数量 可 以 使 用 一 项 称 为 肘 部 方法 的 技 
术 来 估计 。 肘 部 方法 使 用 不 同 的 磊 值 绘制 出 代价 函数 的 值 。 随 着 大 值 的 增加 ， 平 均 侦 差 也 
会 增加 ， 每 个 聚 类 将 包含 更 少 的 实例 ， 同 时 实例 也 将 更 靠近 各 自 对 应 的 图 心 。 然 而 ， 随 着 
大 值 的 增加 ， 对 平均 离 差 的 提升 将 会 减少 。 离 差 的 提升 变化 下 降 最 陡 时 的 上 值 称 为 肘 部 。 让 
我 们 使 用 肘 部 方法 为 一 个 数据 集 选 择 聚 类 的 数量 。 下 面 散 点 网 13.9 描绘 了 一 个 明显 可 以 分 
为 两 个 聚 类 的 数据 集 。 


我 们 将 计算 并 绘制 出 当 大 从 1 变化 到 10 时 聚 类 的 平均 离 差 ， 如 代码 13.1 所 示 。 































































































代码 13.1 

# In[1]: 

import numpy as np 

from sklearn.cluster import KMeans 

from scipy.spatial.distance import cdist 
import matplotlib.pyplot as plt 


clx = np.random.uniform(0.5, 1.5, (1, 10)) 
cly = np.random.uniform(0.5, 1.5, (1, 10)) 
c2x = np.random.uniform(3.5, 4.5, (1, 10)) 
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c2y = np.random.uniform(3.5, 4.5, (1, 10)) 
x = np.hstack((clx, c2x)) 

y = np-hstack((cly, c2y)) 

X = np.vstack((x, y)).T 


K = range (1, 10) 


meanDispersions = [] 
for k in K: 
kmeans = KMeans(n_clusters=k) 


kmeans. fit (X) 
meanDispersions.append(sum(np.min(cdist (X, 





kmeans.cluster centers , ‘euclidean'), axis=1)) / X.shape[0]) 


plt.plot(K, meanDispersions, 'bx-') 
plt.xlabel('k') 

plt.ylabel('Average Dispersion") 
plt.title('Selecting k with the Elbow Method') 




















plt.show() 
5 实例 
4[ eee | 

e’ 。 
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0 1 1 L 1 
0 1 2 3 4 5 
图 13.9 
代码 13.1 将 绘制 出 图 13.10. 
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2.5 , 用 肘 部 方法 选择 k 值 





平均 离 差 

















图 13.10 








当 我 们 把 大 从 1 增加 到 2 时 ， 平 均 离 差 迅速 提 升 。 而 当 磊 值 大 于 2 时 离 差 儿 乎 没有 提 
升 。 现 在 让 我 们 将 肘 部 方法 用 于 包含 3 个 聚 类 的 数据 集 上 ， 如 图 13.11 所 示 。 
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图 13.11 
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图 13.12 是 该 数据 集 的 肘 部 图 。 从 该 图 13.12 中 我 们 可 以 看 出 当 增 加 第 4 ARK, F 
均 离 差 的 提升 率 下 降 最 快 。 也 就 是 说 ， 肘 部 方法 确认 该 数据 集 的 应 该 设置 为 3。 
用 肘 部 方法 选择 K 值 
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13.3 ”评估 聚 类 


我 们 将 机 器 学 习 定 义 为 对 能 从 经 验 中 学 习 以 提 升 以 某 些 标准 来 衡量 的 任务 性 能 的 系 
统 的 设计 的 研究 。K- 均 值 算法 是 一 种 无 监督 学 习 算法 ， 因 此 不 存在 标签 或 者 真实 情况 和 
聚 类 来 比较 。 然 而 ， 我 们 仍然 可 以 使 用 固有 的 衡量 方式 来 评估 算法 的 性 能 。 我 们 已 经 讨 
论 了 如 何 来 衡量 聚 类 的 离 差 。 在 本 节 内 容 中 ， 我 们 将 要 讨论 另 一 种 聚 类 的 衡量 方式 ， 称 
为 轮 廊 系数。 轮廓 系数 是 对 聚 类 紧密 程度 和 稀 芷 程度 的 衡量 。 当 聚 类 的 质量 上 升 时 轮廓 
系数 上 升 。 当 聚 类 内 部 很 紧密 且 彼 此 之 间距 离 很 远 时 ， 轮 廓 系数 很 大 ， 而 对 于 体积 很 大 
且 互 相 重 有 登 的 聚 类 ， 轮 廓 系数 很 小 。 轮 廓 系数 在 每 个 实例 上 计算 ， 对 于 一 个 实例 集合 ， 轮 
廊 系 数 等 于 每 个 实例 轮 廊 系数 的 平均 值 。 对 于 一 个 实例 的 轮廓 系数 的 计算 公式 如 公式 13.2 
所 示 : 







































































































































































ba 


= (公式 13.2) 
max(a,b) RA 
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在 公式 中 , a 是 聚 类 中 实例 之 间 的 平均 距离 。b 是 聚 类 的 实例 和 最 接近 的 聚 类 的 实例 之 
间 的 平均 距离 。 下 面 的 例子 运行 了 4 次 K- 均 值 算法 从 一 个 玩具 数据 集中 创建 2 个 、3 个 、4 
个 和 8 个 聚 类 ， 并 在 每 轮 中 计算 轮廓 系数 ， 如 代码 13.2 所 示 。 


代码 13.2 
# In[1]: 
import numpy as np 












































from sklearn.cluster import KMeans 
from sklearn import metrics 


import matplotlib.pyplot as plt 


plt.subplot(3, 2, 1) 

xi. = npvarray ( [1,24 3). 14° Sy “by D7 - Dy Op Dp Br 95. Ty OD) 
x2 = inp .artay’ (Tl 3) 27-27 “8° 6, FEr Oy Ty Vp 2; Ly Tye 3:1) 
X = np.array(zip(xl, x2)) .reshape (len (x1), 2) 





plt.xlim([0, 10]) 
plt.ylim([0, 10]) 
plt.title('Instances') 
plt.scatter(xl, x2) 





colors S [Dy ey. ae pels tm yn yp kv SDE] 
markers: SL op Von; Dy AYA “eta Sp iy Pen EP 
tests = [2, 3, 4, 5, 8] 

subplot counter = 1 


for t in tests: 
subplot counter += 1 
plt.subplot (3, 2, subplot counter) 
kmeans model = KMeans(n_clusters=t) .fit (X) 





for i, 1 in enumerate(kmeans model.labels ): 
plt.plot (x1 [i], x2[i], color=colors[1], marker=markers[1l], 
ls='None') 
plt.xlim([0, 10 
plt.ylim([0, 10 
plt.title('K = , Silhouette Coefficient = %.03f' % (t, 
metrics.silhouette score(X, kmeans _model.labels , 














metric='euclidean'))) 
plt.show() 


数据 集中 包含 3 个 明显 的 聚 类 。 因 此 ， 如 图 13.13 tax, 4 K 值 等 于 3 IPO A Bo 
大 。 将 KK 值 设置 为 8 时， 实例 的 诊 类 相互 之 间 非 常 靠近 就 好 像 它们 属于 其 他 聚 类 的 实例 一 
样 ， 其 对 应 的 轮廓 系数 也 是 最 小 的 。 
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10 K=5, 轮廓 系数 = 0.555 10 K= 8， 轮廓 系数 = 0.315 
BL a 8 + 
E E ¢ $ 
6 上 = E 6 e e 4 
4 上 4 4 
A + e + 
2- o a + 2 A * y 4 
© v + A a v 
0 l 1 1 0 1 L 1 1 
0 2 4 6 8 10 0 2 4 6 8 10 
图 13.13 
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13.4 图 像 量化 





在 上 一 节 内 容 中 ， 我 们 使 用 聚 类 来 探索 一 个 数据 集 的 结构 。 现 在 让 我 们 把 聚 类 运用 于 一 
个 不 同 的 问题 。 图 像 量 化 是 一 种 有 损 压 缩 方 法 ， 它 能 使 用 一 种 颜色 来 替换 一 张 图 片 中 一 系列 

















类 似 的 颜 
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门将 使 用 聚 类 来 找 出 包含 一 张 图 片 中 最 重要 颜色 的 压缩 调 色 盘 。 


色 。 因 为 代表 颜色 需要 更 少 的 比特 ， 图 像 量 化 能 减少 图 片 文件 的 体积 。 妊 





























E 下 面 的 例 








然后 ， 我 们 将 使 月 
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这 个 压缩 调 色 盘 来 重建 这 张 图 片 。 首 先 我 们 需要 读 入 
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X 

















片 并 将 其 扁平 化 ， 如 代码 13.3 所 示 。 








J. 








代码 13.3 

# In[1]: 

import numpy as np 

import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 
from sklearn.utils import shuffle 
from PIL import Image 


original img = np.array(Image.open('tree.jpg'), dtype=np.float64) / 
255 

original dimensions = tuple (original img. shape) 

width, height, depth = tuple(original_img.shape) 





image flattened = np.reshape(original_img, (width * height, depth) ) 


然后 ,我们 使 用 K- 均 值 算 从 1000 个 随机 选取 的 颜色 样本 中 创建 64 个 聚 类 。 每 个 聚 类 
都 将 成 为 压缩 调 色 盘 中 的 一 个 颜色 ， 如 代码 13.4 所 示 。 









































代码 13.4 
# In[2]: 
image array sample = shuffle(image flattened, random_state=0) [:1000] 





estimator = KMeans(n_clusters=64, random state=0) 
estimator.fit (image array sample) 


# Out[2]: 
KMeans (algorithm='auto', copy x=True, init='k-means+t+', 





max _iter=300, 
n_clusters=64, n_init=10, n_jobs=1, precompute_distances='auto', 
random _state=0, tol=0.0001, verbose=0) 


接 下 来 ， 我 们 为 原 图 中 每 个 像素 预测 其 应 该 分 配 到 哪个 聚 类 中 ， 如 代码 13.5 所 示 。 





pmi 








代码 13.5 
# In[3]: 


cluster assignments = estimator.predict (image flattened) 


Ha» BEAM ER Se il 8 AR 9} OR EA A, WARI 13.6 所 示 。 


代码 13.6 
# In[4]: 
compressed palette = estimator.cluster centers _ 




















compressed _ img = np.zeros((width, height, compressed palette.shape[1]) ) 
label idx = 0 
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for i in range(width): 
for j in range (height): 


compressed img[i] [j] 


compressed palette[cluster assignments[label idx] ] 





label idx t= 1 





plt.subplot (121) 

plt.title('Original Image', fontsize=24) 
pit.imshow (original img) 

plt.axis('off"') 

plt.subplot (122) 

plt.title('Compressed Image', fontsize=24) 
pit.imshow (compressed img) 

plt.axis('off"') 

plt.show() 





原 图 和 压缩 图 片 如 图 13.14 所 示 。 














图 13.14 


学 习 特 征 


13.5 oR 


FEAT IIE, BARRE ANE TB Od TL PR 





类 和 分 类 器 。 我 们 将 通过 聚 


类 非 标记 数据 来 学 习 特征 ， 并 使 用 学 习 到 的 特征 来 建立 一 个 监督 分 类 器 。 














假设 你 有 一 只 猫 和 一 只 狗 。 再 假设 你 已 经 购买 了 一 痢 
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手机， 表面 上 手机 用 于 和 人 
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类 沟通 ， 但 实际 上 它 只 是 用 来 给 你 的 猫 和 狗 拍 照 。 你 的 照片 很 棱 ， 同 时 你 确信 自己 的 朋友 
同时 也 喜欢 仔细 地 回顾 这 些 照 片 。 你 梢 彬 有 礼 ， 并 且 尊 重 只 喜欢 看 猫 照 片 的 人 以 及 只 喜欢 
看 狗 照 片 的 人 ， 但 是 对 照片 进行 分 类 是 一 项 很 费劲 的 工作 。 让 我 们 来 建立 一 个 半 监 督学 习 
系统 来 分 类 猫 照片 和 狗 照 片 。 
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代码 13.7 
# In[1]: 


import numpy 


可 量 表示 一 张 
来 的 并 
征 的 集合 可 以 类 比 为 1 


因为 特征 向 量 


像 进行 分 类 的 一 种 简单 的 方法 是 使 用 所 有 像素 的 强度 或 者 亮 
度 来 作为 特征 。 这 种 方法 即使 对 很 小 的 图 像 也 会 产 出 高 维度 的 特征 。 
不 同 ， 这 些 向 
向 很 敏感 .我们 ; 


描述 符 描 述 了 一 张 图 
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URF 描述 符 , 并 将 其 
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的 词 表 。 我 们 将 使 
片 和 1000 张 狗 图 片 。 
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as np 


import mahotas as mh 


from mahotas. 
from sklearn. 
from sklearn. 
from sklearn. 


import glob 





代码 13.8 
# In[2]: 


all _instance_ 


all _instance_ 


首先 ， 我 们 加 载 了 
其 他 类 似 的 特征 ，SURF 
很 耗费 算 力 。 和 前 面 的 
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features import surf 
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linear model import LogisticRegression 


metrics import 


cluster import 


图 片 ， 并 将 它 
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门 转换 为 灰 度 





























filenames 


[] 


targets = [] 








iniBatchKMeans 





图 片 ， 并 从 





述 符 可 以 更 快 地 被 提取 ， 但 是 从 2000 张 图 
例子 不 同 ， 代 码 13.8 在 大 部 分 电脑 上 需要 耗费 几 分 钟 来 执行 。 


for f in glob.glob('cats-and-dogs-img/*.jpg'): 
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片 进行 测试 ， 如 代码 13.7 所 示 。 
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target = 1 if 'cat' in os.path.split(f) [1] else 0 
all instance filenames. append (f) 








all instance targets.append(target) 


surf features = [] 
for f in all instance filenames: 
image = mh.imread(f, as_grey=True) 
# The first 6 elements of each descriptor describe its position 
and orientation. 
# We require only the descriptor. 
surf features.append(surf.surf(image) [:, 5:]) 


train len = int(len(all_instance filenames) * .60) 

X train surf features = np.concatenate(surf features[:train_len]) 
X test surf feautres = np.concatenate(surf features[train_len:]) 
y_train = all_instance targets[:train_len] 

y_test = all _ instance targets[train_len:] 




















然后 , 我 们 将 提取 出 的 描述 符 分 配 到 300 个 聚 类 中 。 我 们 使 用 MiniBatchKMeans, 它 
是 一 个 在 每 次 迭代 中 使 用 一 个 随机 的 实例 样本 的 K- 均 值 算法 变 体 。 因 为 在 每 次 迭代 中 只 
计算 所 有 一 个 所 有 实例 的 样本 到 图 心 的 距离 ，MinibatchKMeans 收敛 速度 很 快 , 但 是 它 的 
聚 类 的 离 差 可 能 会 很 大 。 在 实际 使 用 中 ， 结 果 很 类 似 ， 这 样 的 折 中 策略 可 以 被 接受 。 如 
代码 13.9 所 示 。 
















































































代码 13.9 

# In[3]: 

n_clusters = 300 

estimator = MiniBatchKMeans (n_clusters=n_clusters) 
estimator.fit_transform(X train surf features) 


# Out[3]: 
array([[ 0.6056733 , 2.70938102, 1.22470857, ..., 0.40240388, 
1.36376676, 0.91444056], 
E 1.17256268, 2.15959095, 1.80512123, ..., 1.25544983, 
2.14938607, 0.92937648], 
[ 4.05884662, 1.87604644, 5.28951557, ..., 4.32944494, 
5.41296044, 3.89081466], 
[06193189 ,. 2.92864247,; 1..1535589 wiv, 0436941273, 
TLE rG Sy 1.09170526], 
[ 1.68619226, 3.95702531, 0.93771461, ..., 1.37208184, 





0.80844426, 2.08232525], 
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[ 1.09366926, 1.87174791, 1.99117652, ..., 1.12510896, 
2.15558684, 1.0511277 ]]) 


接着 ， 我 们 从 训练 数据 和 测试 数据 中 组 织 特征 向 量 ， 找 出 和 每 个 提取 的 SURF 描述 符 
相关 联 的 聚 类 ， 并 使 用 Numpy 类 库 的 binCount 函数 来 计数 。 相 关 结 果 会 将 每 个 实例 表 
示 为 一 个 300 维 的 特征 向 量 ， 如 代码 13.10 所 示 。 

代码 13.10 

# In[4]: 


X train = [] 


for instance in surf features[:train_len]: 
































clusters = estimator.predict (instance) 
features = np.bincount (clusters) 
if len(features) < n_clusters: 
features = np.append(features, np.zeros((1, n clusters- 
len (features) ))) 
xX train.append(features) 


xX test = [] 

for instance in surf features[train_len:]: 
clusters = estimator.predict (instance) 
features = np.bincount (clusters) 


if len(features) < n_clusters: 
features = np.append(features, np.zeros((1, n clusters- 
len (features) ))) 





xX test.append (features) 
最 后 ， 我 们 在 特征 向 量 和 目标 上 训练 一 个 逻辑 回归 分 类 器 ， 并 且 计 算 
率 、 和 准确 率 ， 如 代码 13.11 所 示 。 


代码 13.11 


# In[5]: 
clf = LogisticRegression(C=0.001, penalty='12"') 
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clf.fit(X_train, y train) 
predictions = clf.predict (Xx test) 
print (classification _report(y test, predictions) ) 


# Out[5]: 
precision recall f1-score support 
0 0.69 0.77 0.73 378 
1 0.77 0.69 0.72 420 


avg / total 0.73 0.72 0.72 798 
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13.6 小结 

















在 本 章 中 ， 我 们 讨论 了 第 一 个 无 监督 学 习 任务 一 聚 类 。 聚 类 被 用 于 在 非 标记 数据 
中 发 现 结构 ， 我 们 学 习 了 K- 均 值 聚 类 算法 ， 它 会 夫 代 地 将 实例 分 配 到 每 个 聚 类 中 ， 并 调 
整 聚 类 图 心 的 位 置 。 虽 然 K- 均 值 算法 在 没有 监督 的 情况 下 会 从 经 验 中 学 习 ， 但 是 它 的 性 
能 依然 是 可 以 衡量 的 。 我 们 学 习 使 用 离 差 和 轮 廊 系 数 来 评估 聚 类 。 我 们 将 K- 均 值 算法 运 
用 到 两 个 不 同 的 问题 中 。 首 先 ， 使 用 K- 均 值 算法 来 进行 图 像 量化 ， 这 是 一 项 可 以 将 一 系 
列 颜色 表示 为 一 个 颜色 的 压缩 技术 。 我 们 还 使 用 K- 均 值 算法 在 一 个 半 监 督 图 片 分 类 问题 
中 学 习 特 征 。 

在 下 一 章 中 ， 我 们 将 讨论 另 一 个 称 为 降 维 的 无 监督 学 习 任务 。 和 我 们 为 分 类 猫 狗 图 
片 而 创建 的 半 监督 特征 表示 一 样 ， 降 维 也 可 以 用 来 减少 特征 表示 的 维度 同时 尽 可 能 多 地 
保留 信息 。 


















































































































































































































































在 本 章 中 ， 我 们 将 讨论 一 项 降低 数据 维度 的 技术 ， 称 为 主 成 分 分 析 ( PCA )。 降 维 是 由 
一 些 问题 带 来 的 。 首 先 ， 它 可 以 被 用 来 缓解 
于 压缩 数据 ， 同 时 将 丢失 数据 的 量 最 小 化 。 最 后 ， 
数据 可 以 轻松 地 进行 可 视 化 。 我 们 将 使 用 PCA 算法 将 高 维度 数据 集 在 两 个 
维度 上 进行 可 视 化 ， 同 时 建立 一 个 面部 识别 系统 。 
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据 集 维度 数量 的 增加 ， 一 个 估计 器 所 需 的 样本 数量 会 成 指数 





此 庞大 的 数据 是 不 可 行 的 ， 同 时 从 大 数据 集中 学 习 需 要 更 多 的 内 存 以 及 处 
维度 的 增加 而 增加 。 思 
类 似 的 实例 是 一 人 
和 -卡尔 胡 宁 - 勒 夫 转 换 ( KLT )， 是 一 种 用 于 在 
F 探 索 和 可 视 化 高 维度 数据 集 。 它 可 以 被 用 于 压缩 数据 ， 和 被 另 一 个 估计 器 
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将 数据 投影 到 
过 把 点 投影 到 
值 。 一 个 三 维 数据 集 可 以 通过 把 变量 投影 到 一 个 平面 上 来 降低 到 
个 n 维 子 空间 来 降 维 ，n 小 于 m E 
量 能 够 扩张 一 个 能 将 投影 数据 平方 误差 和 最 小 化 的 子 空 间 ， 这 个 投 
原始 数据 集 的 最 大 方差 比例 。 


维 数据 集 可 以 通过 投影 到 
向 量 ， 
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影 能 保留 





度 经 常会 随 着 
RIU, FRH 
叫 























E 高 维度 空 











很 困难 的 事 。 











间 中 由 于 所 有 












































随 着 一 个 数 





一 些 应 用 中 获取 如 
能 力 。 另 外 ， 
实例 的 稀疏 程度 














高 维 空间 中 发 现 模 式 的 技术 。 


处 理 数据 。PCA 将 一 系列 可 能 相关 联 的 高 维 变 量 减 少 为 一 系列 被 称 为 主 成 分 的 低 











一 条 直线 来 减少 维度 ， 数 据 集中 的 每 一 个 实例 会 








不 相关 合成 变量 。 这 些 低 允 





















































E 度 数据 会 尽 可 能 多 地 保存 原始 数据 的 方差 。 PCA 通过 
一 个 低 维度 子 空间 来 减少 一 个 数据 集 的 维度 。 例 如 








， 一 个 二 维 数 据 集 可 以 通 














TE 


























这 些 向 









































二 维 。 


EIH 














个 值 来 表示 而 不 是 一 对 
总 的 来 说 ， ae m 
h, PCA 可 以 用 于 找 








186 第 14 章 使 用 主 成 分 分 析 降 维 

假设 你 是 一 名 园艺 物品 专栏 摄影 师 ， 你 被 派 去 拍摄 一 张 喷 谈 的 照片 。 这 个 喷 壶 是 三 维 
的 ， 但 是 照片 是 二 维 的 ， 你 需要 创建 一 个 能 尽 可 能 描述 这 个 喷 壶 的 二 维 表 示 。 14.1 是 4 
张 你 能 够 使 用 的 图 片 集合 。 








图 14.1 





在 第 1 张 照 片 中 可 以 看 到 喷 壶 的 背面 ， 但 是 不 能 看 见 喷 壶 的 正面 。 第 2 张 照片 的 角度 
能 直接 看 到 喷嘴 的 角度 ， 这 张 照 片 提供 了 在 第 1 张 照片 中 不 可 见 的 喷 壶 正面 的 信息 ， 但 
喷 壶 把 手 不 可 见 。 第 3 张 照片 是 用 乌 梧 视图 来 描述 的 ， 因 此 无 法 辨别 喷 壶 的 高 度 。 第 4 
张 照片 是 专栏 的 最 佳 选择 ， 在 这 张 图 片 中 喷 壶 的 高 度 、 顶 部 、 喷 嘴 以 及 把 手 都 能 辨别 出 来 。 
PCA 的 目的 和 前 面 的 例子 很 类 似 , 它 可 以 将 高 维度 空间 中 的 数据 投影 到 一 个 低 维度 空间 中 ， 
并 尽 可 能 多 地 保留 方差 。 PCA 旋转 数据 集 对 齐 它 的 主 成 分 ， 以 此 最 大 化 前 几 个 主 成 分 包含 
的 方差 。 假 设 你 有 一 个 数据 集 ， 如 图 14.2 所 示 。 
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图 14.2 








14.2 中 的 实例 允 近 一 条 从 原点 到 右上 角 的 细 长 的 椭圆 拉 伸 ,为 了 减少 数据 集 的 维度 ， 
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我 们 必须 将 点 投影 到 一 条 直线 上 。 图 14.3 描绘 了 两 条 可 以 投影 的 直线 。 哪 一 条 直线 会 让 实 
例 的 变化 最 大 呢 ? 


1.2 





1.0} 


0.8 


0.6 


0.4 


0.2 











“0.0 0.2 0.4 0.6 0.8 1.0 1.2 
图 14.3 


和 点 线 相 比 ， 虚 线 会 让 实例 的 变化 更 大 。 实 际 上 ， 虚 线 是 第 1 个 主 成 分 。 第 2 个 主 成 
分 必须 和 第 1 个 主 成 分 正 交 ， 也 就 是 说 ， 它 必须 统计 独立 于 第 一 个 主 成 分 。 在 一 个 2- 维 空 
间 中 ， 第 1 主 成 分 和 第 2 主 成 分 将 会 垂直 出 现 ， 如 图 14.4 所 示 。 























0.2 0.4 0.6 0.8 1.0 
图 14.4 
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每 一 个 后 面 的 主 成 分 会 保留 剩余 方差 的 最 大 值 ， 唯 一 的 限制 是 它 必须 和 其 他 的 主 成 分 
正 交 。 现 在 假设 数据 集 有 3 个 维度 。 图 14.5 描绘 了 前 面 点 的 散 点 图 ， 它 看 起 来 像 是 一 个 围 
绕 着 某 一 根 轴 稍 稍 旋转 的 平 旋 面 。 
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图 14.5 














这 些 点 可 以 被 旋转 和 和 平移， 这样 倾 斜 的 圆 盘 几乎 完全 位 于 二 维 空间 中 。 现 在 这 些 点 形 
成 了 一 个 椭圆 ， 第 3 维 几 乎 不 包含 方差 ， 因 而 可 以 被 丢弃。 当 一 个 数据 集中 的 方差 围绕 每 
个 维度 不 均匀 分 布 时 ，PCA 非常 有 用 。 考 虑 一 个 具有 球形 凸 包 的 三 维 数据 集 ， 由 于 每 个 维 
度 的 方差 都 相等 ， 没 有 一 个 维度 可 以 再 不 损失 大 量 信息 的 条 件 下 被 丢弃 ， 因 此 PCA 无 法 有 
效 地 运用 于 该 数据 集 。 对 于 只 有 二 维 或 者 三 维 的 数据 集 来 说 ， 直 观 地 辨别 其 主 成 分 是 很 简 
单 的 。 在 下 一 节 内 容 中 ， 我 们 将 讨论 如 何 计算 高 维度 数据 的 主 成 分 。 


14.1.1 HE. WHAM AERE 

在 讨论 PCA 如 何 运行 之 前 ， 我 们 必须 先 定义 几 个 概念 。 回 顾 一 下 方差 是 一 种 衡量 一 组 

直 如 何 分 布 的 方法 。 方 差 是 每 个 值 和 均值 的 平方 差 的 平均 ， 如 公式 14.1 所 示 : 
s? _ Da, -Xy 
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(公式 14.1) 
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协 方差 是 一 种 衡量 两 个 变量 一 起 改变 程度 的 方法 ， 它 是 衡量 两 组 变量 之 间 相 关 性 程度 
的 方法 。 如 果 两 个 变量 的 协 方差 为 0， 则 变量 不 相关 。 需 要 注意 的 是 ， 不 相关 的 变量 并 不 
一 定 是 独立 的 ， 因 为 相关 仅仅 是 线性 相关 的 一 种 衡量 方式 。 两 个 变量 协 方差 的 计算 方式 如 
公式 14.2 所 示 : 






























































DCX, -a -7) 
n-l 





cov( X,Y) = (公式 14.2) 

















如 果 协 方差 非 0， 正 负 号 表示 变量 是 正 相 关 还 是 负 相 关 。 当 两 个 变量 正 相 关 时 ， 一 个 
变量 随 着 另 一 个 变量 的 增加 而 增加 。 当 两 个 变量 负 相 关 时 ,一 个 变量 相对 于 其 均值 增加 时 ， 
另 一 个 变量 相对 于 其 均值 减少 。 一 个 协 方 差 和 矩阵 描述 了 一 个 数据 集中 每 一 对 维度 数 变 量 的 
协 方差 。 元 素 (iy) 表 示 数 据 六 维和 产 维 的 协 方差 例如 ， 一 个 三 维 数据 的 协 方差 矩阵 如 公式 
14.3 所 示 : 














































































































COV(Xi,M) COV(X,,x,) Ccov(x,,x;) 
C =| cov(x,,x,) cov(x,,x,) cov(x,,x;) (公式 14.3) 


COV(X;,%X,) COV(X;,x,) COVv(x;,x;) 























让 我 们 来 计算 下 面 数据 集 的 协 方差 矩阵 ， 如 表 14.1 所 示 。 

表 14.1 
vl v2 v3 
2 0 一 1.4 
2.2 0.2 -1.5 
2.4 0.1 =] 
1.9 0 —1.2 




















变量 的 均值 分 别 为 2.125. 0.075 和 -1.275。 接 着 我 们 可 以 计算 每 一 对 变量 的 协 方差 并 
得 出 下 列 协 方差 矩阵 ， 如 公式 14.4 所 示 : 
2.92 3.16 2.95 2.67 | 
3.16 3.43 3.175 2.885 
C= (公式 14.4) 
2.95 3.175 3.01 2.705 
2.67 2.885 2.705 2.443 | 


我 们 可 以 使 用 NumPy 类 库 验 证 计算 结果 ， 如 代码 14.1 所 示 。 


























代码 14.1 
E ISLI: 
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import numpy as np 


X= np.array([ 
P2000; 7H Ls ay; 
[2327 OS 29. Ly 
(224 Ody Hy 
[23-97-05 = L221 

] ) 

print (np.cov(X) .T) 


# Out[1]: 

KE 292 3.16 295) 25.01 ] 
[+3216 3.43 Se LIS 2.885 ] 
[rs 3.175 33.10 1 2.705 ] 
[ 2.67 2.885 2.705 2. 44333333] ] 


14.1.2 ”特征 问 量 和 特征 值 


加 顾 一 下 ， 一 个 向 量 由 一 个 方向 和 一 个 量 级 或 者 长 度 来 描述 。 一 个 和 矩阵 的 特征 向 量 是 
一 个 非 零 向 量 ， 满 足 公 式 14.5: 



























































Av=Ay (公式 14.5) 

在 公式 中 ， 了 是 一 个 特征 向 量 ，4 是 一 个 方 阵 ，4 是 一 个 称 为 特征 值 的 标量 。 一 个 特 

征 向 量 的 方向 和 其 被 矩阵 4 转换 之 前 保持 一 致 ， 只 有 其 量 级 发 生变 化 ， 变 化 由 特征 值 来 标 
明 。 也 就 是 说 ， 一 个 矩阵 乘 以 它 的 一 个 特征 向 量 ， 等 于 对 这 个 特征 向 量 做 缩放 。 前 级 “ 特 
征 ” 在 德语 中 表示 “属于 ”或 “ 独 有 ” 一 个 矩阵 的 特征 向 量 是 “属于 ”和 描绘 数据 结构 的 








































































































特征 向 量 和 特征 值 具 能 由 方 阵 衍 生 ， 同 时 并 非 所 有 的 方 阵 都 有 特征 向 量 和 特征 值 。 如 
果 一 个 矩阵 有 特征 向 量 和 特征 值 ， 它 的 每 一 个 维度 上 都 有 一 对 特征 向 量 和 特征 值 。 一 个 算 
阵 的 主 成 分 是 它 的 协 方差 矩阵 的 特征 向 量 ， 及 其 对 应 的 特征 值 排序 。 对 应 最 大 特征 值 的 特 
征 向 量 是 第 1 个 主 成 分 ， 对 应 第 二 大 特征 值 的 特征 向 量 是 第 2 个 主 成 分 ， 以 此 类 推 。 
让 我 们 来 计算 下 列 和 矩阵 的 特征 向 量 和 特征 值 ， 如 公式 14.6 所 示 : 
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1 -2 
A= (公式 14.6) 
: H 公式 








回顾 前 面 的 内 容 ， 和 矩阵 A 和 它 的 任何 特征 向 量 的 乘积 都 等 于 特征 向 量 乘 以 对 应 的 特征 
直 。 首 先 我 们 将 找 出 特征 值 ， 如 公式 14.7 所 示 : 

















=~ 























(A-AD¥ =0 


1 -2| [4 0 
2 -3| |0 4 
特征 方程 表明 数据 矩阵 和 特征 值 和 单位 矩阵 乘积 的 差 的 矩阵 的 行列 式 结果 等 于 0， 如 
公式 14.8 所 示 : 
PELA AD 
| 2 -3-1 


(4-47 =0 (公式 14.8) 
IRAKERE A 的 值 ， 如 公式 14.9 所 示 : 


1 2] [4 0 1-4 -2 1-4 -2 hy, 
— oa ae 1l o CR 
l E i | Y p Pe - ae) eee? 
我 们 可 以 代入 第 一 个 特征 值 来 解 方程 ， 如 公式 14.10 所 示 


GD 23) Aa ie aia 
l > cole: zeje (公式 14.10) 


前 面 的 步骤 可 以 写成 方程 组 的 形式 ， 如 公式 14.11 所 示 : 


2v,, + (-2v,,) =0 
2v,, + (-2v,,) =0 


A-A*I|= =1 (公式 14.7) 

















=(A+1(A +1) =0 


























(公式 14.11) 








任何 满足 上 述 方程 的 非 零 向 量 ， 都 能 作为 特征 向 量 ， 如 公式 14.12 所 示 : 


eta (公式 14.12) 


PCA 需要 单位 特征 向 量 ， 或 者 说 长 度 为 1 的 特征 向 量 。 我 们 可 以 将 特征 向 量 除 以 它 的 
模 进行 标准 化 ， 特 征 向 量 的 模 的 计算 公式 如 公式 14.13 所 示 : 























|| xR VA tg te tx, (公式 14.13) 


我 们 的 向 量 的 模 如 公式 14.14 所 示 : 
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=J PHP ao (公式 14.14) 








1 
1 
此 可 以 产 出 单位 特征 向 量 ， 如 公式 14.15 所 示 : 


1 0.707 | 、 
/J2= (公式 14.15) 
1 0.707 | 









































I 





我 们 可 以 使 用 Numpy 类 库 验 证 计算 结果 的 正确 性 .eig 函数 会 返回 一 个 特征 值 和 特征 


向 量 的 元 组 ， 如 代码 14.2 所 示 。 























代码 14.2 

# In[1]: 

import numpy as np 

w, v = np.linalg.eig(np.array ([[1, -2], [2, -3]])) 
print (w) 

print (v) 


# Out[1]: 

[-0.99999998 -1.00000002] 

[[ 0.70710678 0.70710678] 
[ 0.70710678 0.70710678] ] 


14.1.3 ”进行 主 成 分 分 析 


向 我 们 使 用 PCA 来 将 二 维 数据 减少 到 一 个 维度 ， 数 据 如 表格 14.2 所 示 。 


















































表 14.2 
xl x2 
0.9 1 
2.4 2.6 
1.2 1.7 
0.5 0.7 
0.3 0.7 
1.8 1.4 
0.5 0.6 
0.3 0.6 
2:5 2.6 
1.3 1.1 
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PCA 的 第 一 个 步骤 是 从 每 个 观测 得 来 的 解释 变量 上 减 去 均值 ， 如 表格 14.3 所 示 。 
表 14.3 
0.9 — 1.17 = -0.27 1-1.3=-03 
2.4-1.17=1.23 2.6-13=13 
1.2-1.17=0.03 1.7-13=04 
0.5 — 1.17 = —0.67 0.7 -1.3 = -0.6 
0.3 — 1.17 = -0.87 0.7 -1.3 = -0.6 
1.8 — 1.17 = 0.63 1.4—1.3=0.1 
0.5 — 1.17 = —0.67 0.6 -1.3=-0.7 
0.3 — 1.17 = —0.87 0.6 - 1.3 = -0.7 
2.5- 1.17 = 1.33 2.6-13=13 
13-1.17=0.13 1.1-1.3 =-0.2 
接着 ， 我 们 必须 计算 数据 的 主 成 分 。 回 顾 一 下 ， 主 成 分 是 数据 协 方差 矩阵 的 特征 向 量 ， 
由 对 应 的 特征 值 进行 排序 。 主 成 分 可 以 使 用 两 个 不 同 的 技巧 求 出 。 第 1 个 技巧 需要 计算 数 
据 的 协 方差 矩阵 。 因 为 协 方差 矩阵 是 一 个 方 阵 ， 我 们 可 以 使 用 上 一 节 内 容 中 描述 的 方法 来 
计算 特征 向 量 和 特征 值 。 第 2 个 技巧 是 使 用 数据 和 矩阵 的 奇异 值 分 解 来 找 出 协 方差 矩阵 的 特 
征 向 量 以 及 特征 值 的 平方 根 。 我 们 将 使 用 第 1 个 技巧 来 解决 一 个 例子 ， 然 后 描述 第 2 个 技 
巧 ， 即 被 scikit-learn 类 库 的 PCA 实现 使 用 的 技巧 。 算 阵 C 是 数据 的 协 方差 矩阵 ， 如 公式 


14.16 所 示 : 


使 用 上 一 节 内 容 中 描述 的 技巧 ， 可 得 特征 值 为 1.250 和 0.034。 


可 
Wi 


接 下 来 ， 我 们 将 
主 成 分 。 我 们 将 构建 一 个 转换 矩 











我 们 把 一 个 五 维 

















可 








_[0.687 0.607 
~ 10.607 0.598 


0.732 —0.681 
0.681 0.733 


数据 投影 到 主 成 分 上 。 第 1 个 特征 向 











车 ， 矩 阵 的 每 一 列 都 是 对 应 











数据 集 减少 到 三 允 


， 我 们 需 











要 创建 一 个 3 列 的 矩阵 。 


(公式 14.16) 


公式 14.17 是 单位 特征 


(公式 14.17) 


量 拥有 最 大 的 特征 值 ， 是 第 一 





个 主 成 分 的 特征 











HI 








向 量 。 如 果 


在 这 个 例子 中 ， 我 们 
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~ 








将 把 我 们 的 二 维 数据 集 投影 到 一 维 上 ， 因 此 我 们 仅仅 使 用 第 一 主 成 分 的 特征 向 量 。 最 后 ， 
我 们 将 计算 数据 矩阵 和 转换 矩阵 的 点 积 。 公 式 14.18 是 展示 了 将 数据 投影 到 第 一 主 成 分 上 
的 结果 : 




















| -0.27 -0.3| | -0.40 | 
1.23 13 1.79 
0.03 0.4 0.29 
-0.67 -0.6 -0.90 
-0.87 —0.6 Hii -1.05 CA 
0.63 0.1 | 0.681 0.53 
-0.67 -0.7 -0.97 
-0.87 -0.7 -1.11 
1.33 13 1.86 
| 0.13 -0.2| | -0.04 | 








许多 PCA 的 实现 , 包括 scikit-learn 类 库 中 的 实现 ， 都 使 用 了 奇异 值 分 解 来 计算 特征 向 
量 和 特征 值 。SVD 如 公式 14.19 所 示 : 























X =UxV" (公式 14.19) 


EARP, U YS ERT ERE Acar ale, V AEEA -TE S 
XI f Ae He BT PEII E BASANE RERI a Dd EEE — a y A E A 
中 非常 有 用 ， 我 们 关注 它们 只 是 因为 它们 和 数据 矩阵 的 特征 向 量 和 特征 值 相 关联 。 特 别 
地 ， 左 -奇异 向 量 是 协 方差 算 阵 的 特征 向 量 ， 允 的 对 角 元 素 是 协 方差 矩阵 特征 值 的 平方 根 。 
计算 SVD 已 经 超出 了 本 书 的 范围 ， 但 是 使 用 SVD 计算 特征 向 量 应 该 和 从 协 方差 矩阵 得 出 
的 特征 向 量 很 相似 。 
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通过 对 二 维 或 三 维 数 据 进 行 可 视 化 能 轻松 地 发 现 特 征 。 一 个 高 维度 数据 集 无 法 用 图 
表 进 行 表 示 ， 但 是 我 们 依然 可 以 通过 将 其 减少 到 两 个 或 者 3 个 主 成 分 来 获取 一 些 对 其 数 
据 结构 的 洞察 。Fisher 意 尾 花 数据 集 形成 于 1936 年 ,是 一 个 来 自 3 HSE) 50 个 样本 
的 集合 ， 包 括 : WS. AR TEES AIA ES eo AR PE Re ee ET AES FN Ze ae A JR 
度 和 宽度 的 测量 。 这 个 高 尾 花 数据 集 经 常 被 用 来 测试 分 类 模型 ， 它 也 包含 在 scikit-learn 
类 库 中 。 让 我 们 将 这 个 高 尾 花 数据 集 的 维度 从 四 维 减少 到 二 维 以 便 我 们 能 将 其 可 视 化 。 
















































































































































































首先 ， 我 们 会 加 载 内 建 的 iris 数据 集 ， 
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并 实例 化 一 个 PCA 估计 器 。PCA 类 会 接收 主 成 分 





的 数量 ,并 将 其 保存 为 一 个 超 参 数 。. 和 其 他 的 估计 器 一 样 ,PCA 暴露 一 个 fit transform 














方法 ， 方 法 将 返回 减少 维度 后 的 数据 和 矩阵。 最 后 ， 我 们 将 整合 # 





据 。 如 代码 14.3 所 示 。 


代码 14.3 
# In[1]: 


import matplotlib.pyplot as plt 














F 绘 制 出 减少 维度 后 的 数 














from 


from 


data 


S 


S 


klearn.decomposition import PCA 
klearn.datasets import load_iris 


load_iris() 


y= ta.target 
X 


pca 


ta.data 





PCA (n_components=2) 


reduced Xx pca.fit transform(X) 


red x, red y 


[] 
blue_x, blue y = 
[] 


green_x, y 
len (reduced X) ) : 


green_ 


for i in range ( 


if yli] 
red x. 
red y. 

== 1: 

blue_x.append (reduced X[i] 


elif y[il] 





blue_y.append (reduced X[i] 





else: 
green _x.append (reduced X[i 
green_y.append (reduced X[i 
plt. 
plt. 
PET: 
plt. 


减少 维度 后 
视图 中 ， 很 明显 其 中 一 个 类 可 以 轻松 地 和 另 儿 
的 结构 将 会 很 





scat 
scat 
scatter (green x, 


O 


show 












































append (reduced X[i] [0 
append (reduced X[i] [1 





green_y, c='g' 


的 实例 如 图 14.6 所 示 。 数 据 集 的 3 个 类 





1]) 


ter(red_x, red_y, c='r', marker='x') 


ter (blue_x, blue_y, c='b', marker='D') 


"3 


, marker='. 








| 不 同 的 标记 表示 。 从 数据 的 二 维 




















两 个 类 分 开 。 如 果 没 有 图 像 表 示 ， 了 解数 据 














困难 ， 这 项 洞察 可 以 影响 我 们 对 分 类 模型 的 选择 。 





通过 一 个 人 的 面部 图 





























1.5 
+ 
1.0} e 
e sos。 ig 
0.5} “Ss ae 
Š *. & re 
0.0 ar Te us 
g“ xs oe ° 
-0.5 i o%, 
% > r 
-1.0 
-1.5 
-2.0 ， , , i , ! ， : 
= 3 2 -1 0 1 2 3 4 5 
图 14.6 
` 4 „try * jm] 
14.3 ”使 用 PCA 进行 面部 识别 
现在 让 我 们 将 PCA 运用 到 一 个 面部 识别 问题 。 面 部 识别 是 一 项 监督 分 类 任务 ， 它 需要 

















片 来 识别 一 个 人 。 在 这 个 例子 中 ， 我 们 将 使 有 





上 一 个 来 自 AT&T 剑桥 实 


验 室 称 为 “我 们 的 脸 部 数据 库 ” 的 数据 集 。 这 个 数据 集 包 含 40 个 人 ,每 人 包含 10 张 图 片 。 


这 些 图 片 在 不 
用 像素 表示 ， 





图 14.7 


虽然 这 些 图 片 尺 
维度 。 为 了 避免 过 度 
以 一 种 少量 主 成 分 的 








同 的 光照 条 件 下 创建 ， 受 试 者 的 表情 各 不 相同 。 这 些 图 片 均 为 灰 度 图 片 ， 使 


= 
Ze 





其 中 一 张 图片 。 





图 





14.7 


=] 


寸 都 很 小 ， 但 是 
拟 合 ， 训 练 如 此 高 维度 的 数据 需要 许多 样本 。 
方式 来 创建 图 




















象 的 紧凑 表示 。 我 们 可 以 将 一 张 图片 的 像素 强度 的 矩阵 








个 编码 了 每 个 像素 强度 的 特征 向 量 将 上 共有 10304 个 


相反 ， 我 们 将 使 用 PCA 
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变形 为 一 个 向 量 ， 同 时 创建 一 个 由 所 有 训练 图 片 组 成 的 矩阵 。 每 张 图 片 都 是 一 个 该 矩阵 主 
成 分 的 线性 组 合 。 在 面部 识别 的 情景 中 ， 这 些 主 成 分 被 称 为 特征 脸 。 特 征 脸 可 以 被 认为 是 








~ 




















面部 的 标准 化 成 分 。 数 据 集 中 的 每 张 脸 都 可 以 表示 为 特征 脸 的 组 合 ， 并 且 可 以 由 最 重要 特 
征 脸 的 组 合 来 通 近 。 首 先 我 们 将 这 些 图 片 加 载 进 Numpy 数组 中 ,并 将 它们 的 像素 强度 矩阵 





















































变形 为 一 个 向 量 。 然 后 ， 我 们 使 用 scale 函数 将 数据 标准 化 。 回 顾 一 下 ， 标 准 化 数据 具有 
0 均值 和 单位 方差 。 因 为 PCA 会 尝试 最 大 化 主 成 分 的 方差 ， 因 此 标准 化 非常 重要 。 如 果 数 































































































据 没 有 进行 标准 化 ，PCA 会 对 特征 的 单位 和 取 值 范 























由 





围 很 敏感 。 相 关 代码 如 代码 14.4 所 示 。 





代码 14.4 
# In[1]: 
import os 

import numpy as np 
from 
from 
from learn.decomposition import PCA 


from 





S 
S 
from s 
S 
S 
S 


from 





from PIL import Image 


for dirpath, _, filenames in os.walk( 


for filename in filenames: 


learn.cross validation import train_test_split 


learn.cross validation import cross val score 


k 
k 

klearn.preprocessing import scale 

k 

klearn.linear model import LogisticRegression 
k 


learn.metrics import classification report 


"att-faces/orl faces"): 


if filename[-3:] == 'pgm!': 
img = Image.open(os.path.join(dirpath, 
filename) ).convert('L') 


arr = np.array(img) .reshape (10304) .astype('float32') / 


2593 
X.append (arr) 
y.append (dirpatn) 


X = scale (X) 











i 


接着 我 们 会 随机 将 图 片 分 为 训练 集 和 数据 
但 14.5 所 示 。 








代码 14.5 
# In[2]: 








开 使 在 训练 数据 上 拟 合 PCA 对 象 ， 如 代 





X train, X test, y train, y test = train test split (X, y) 
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pca = 

我 们 将 所 有 实例 的 维度 降低 到 150 个 维度 ， 同 时 训练 一 个 逻辑 回归 分 类 器 。 该 数据 集 
包含 40 个 类 ，scikit-learn 类 库 会 在 背后 使 用 一 对 多 策略 自动 创建 二 元 分 类 器 。 最 后 ， 我 们 
使 用 交叉 验证 和 一 个 测试 集 评 估 分 类 器 的 性 能 。 在 完整 数据 上 训练 的 分 类 器 对 每 个 类 的 平 
I Fl 得 分 为 0.94, 但 是 这 明显 需要 更 多 的 训练 时 间 ， 同 时 在 包含 更 多 训练 数据 的 应 用 中 非 
igo AKRE URIS 14.6 所 示 。 


PCA (n_components=150) 


































































































代码 14.6 


# In[3]: 


X train reduced = pca.fit_transform(X_ train) 


X test _reduced = pca.transform(X test) 


print (X_train.shape) 


print (X_train_reduced.shape) 


classifier = LogisticRegression () 


accuracies = cross val_score(classifier, X train reduced, 


y_train) 


print ('Cross validation accuracy: %s' % np.mean(accuracies) ) 


classifier.fit(X_train_ reduced, y train) 
predictions = classifier.predict(X_test_ reduced) 


print (classification _report(y test, predictions) ) 








# Out[3]: 
(300, 10304) 
(300, 150) 
Cross validation accuracy: 0.807660834984 

precision recall f1-score support 
att-faces/orl faces/sl 0.50 1.00 0.67 1 
att-faces/orl faces/s10 1.00 1.00 1.00 3 
att-faces/orl faces/s1l 1.00 0.67 0.80 3 
att-faces/orl faces/s12 1.00 1.00 1.00 5 
att-faces/orl faces/s13 0.00 0.00 0.00 0 
att-faces/orl faces/s14 1.00 1.00 1.00 4 
att-faces/orl faces/s16 1.00 1.00 1.00 2 
att-faces/orl faces/s17 0.67 1.00 0.80 2 
att-faces/orl faces/s18 1.00 1.00 1.00 2 
att-faces/orl faces/s19 0.83 1.00 0.91 5 
att-faces/orl faces/s2 0.33 1.00 0.50 al 
att-faces/orl faces/s20 1.00 1.00 1.00 2 
att-faces/orl faces/s21 1.00 1.00 1.00 2 
att-faces/orl faces/s22 1.00 1.00 1.00 1 
att-faces/orl faces/s23 0.67 1.00 0.80 2 
att-faces/orl faces/s24 1.00 1.00 1.00 3 
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att-faces/orl faces/s25 1.00 1.00 1.00 2 
att-faces/orl faces/s26 1.00 1.00 1.00 3 
att-faces/orl faces/s27 1.00 1.00 1.00 d 
att-faces/orl faces/s28 1.00 0.50 0.67 4 
att-faces/orl faces/s29 1.00 1.00 1.00 5 
att-faces/orl faces/s3 1.00 1.00 1.00 3 
att-faces/orl faces/s30 1.00 0.67 0.80 3 
att-faces/orl faces/s31 0.75 1.00 0.86 3 
att-faces/orl faces/s32 1.00 1.00 1.00 3 
att-faces/orl faces/s34 1.00 0.83 0:94 6 
att-faces/orl_ faces/s35 0.50 0.33 0.40 3 
att-faces/orl faces/s36 1.00 1.00 1.00 3 
att-faces/orl faces/s37 1.00 0.75 0.86 4 
att-faces/orl faces/s38 1.00 1.00 1.00 3 
att-faces/orl faces/s39 1.00 1.00 1.00 2 
att-faces/orl faces/s4 1.00 0.75 0.86 4 
att-faces/orl faces/s40 0.00 0.00 0.00 0 
att-faces/orl faces/s5 1.00 0.67 0.80 3 
att-faces/orl faces/s6 1.00 1.00 1.00 ih 
att-faces/orl_faces/s7 1.00 1.00 1.00 3 
att-faces/orl faces/s8 1.00 1.00 1.00 2 
att-faces/orl faces/s9 1.00 1.00 1.00 I; 
avg / total 0.94 0.90 0.91 100 


14.4 小结 








在 本 章 内容 中 ， 我 们 检测 了 降 维 问题 。 高 维度 数据 将 会 受到 维度 诅咒 问题 的 影响 。 估 
计 器 需要 更 多 的 样本 从 高 维度 数据 中 实现 泛 化 。 我 们 可 以 使 用 一 项 称 为 PCA 的 技巧 来 缓和 
这 些 问 题 ， 该 项 技巧 会 通过 将 数据 投影 到 低 维 度 子 空间 ， 将 一 个 高 维度 、 可 能 相互 关联 的 
数据 集 降 维 到 一 个 线性 不 相关 主 成 分 组 成 的 低 维度 数据 集 。 我 们 使 用 了 主 成 分 分 析 在 两 个 
维度 上 对 四 维 药 尾 花 数据 集 进行 可 视 化 ， 同 时 还 创建 了 一 个 面部 识别 系统 。 

这 一 章 是 本 书 的 结尾 。 我 们 已 经 讨论 了 各 种 各 样 的 模型 、 学 习 算 法 、 性 能 衡量 方式 以 
及 它们 在 scikit-learn 类 库 中 的 实现 。 在 第 一 章 中 ， 我 们 将 机 器 学 习 程 序 描述 为 那些 在 一 个 
任务 中 从 经 验 中 学 习 以 提升 性 能 的 程序 。 在 后 续 的 章节 中 ， 我 们 通过 一 些 例子 证 明了 一 些 
在 机 器 学 习 最 常见 的 经 验 、 任 务 和 性 能 衡量 方式 。 我 们 在 披萨 的 直径 上 回归 了 披萨 价格 ， 
同时 对 垃圾 邮件 和 非 垃 圾 邮件 文本 信息 进行 分 类 。 我 们 使 用 主 成 分 分 析 进 行 面部 识别 ， 创 
建 了 一 个 随机 森林 来 阻拦 横幅 广告 ， 同 时 使 用 SVM 和 ANN 来 优化 字符 识别 。 我 希望 你 已 
经 能 够 以 自己 的 经 验 将 scikit-learn 类 库 和 本 书 中 例子 运用 于 机 器 学 习 中 。 感谢 你 阅读 本 书 。 










































































































































































































































































